
2021年11月2日,Databricks官宣其产品Databricks SQL在100TB TPC-DS取得了新的世界记录。官宣着意强调,根据巴塞罗那超级计算中心的第三方测试,在TPC-DS上Databricks既比Snowflake快2.7倍,也比Snowflake性价比提高了12倍。10天后,Snowflake发表官方回复,声称Databricks的结果作为 TPC 提交过程的一部分正在接受审计,它发布的 Snowflake 结果不透明、不经过审计或不可重复,这些结果与Snowflake的内部基准和客户体验完全不一致。
回复的重点大概有两个,第一是它们的标准版产品性价比和Databricks差不多,而Databricks是用了支持物化视图和多集群仓库的企业版来运行的。第二是它们的TPC-DS查询在4XL仓库上执行是3760秒,而不是巴塞罗那超算中心测试的8397秒。最后Snowflake强调相比为基准测试添加配置旋钮、特殊设置和具体优化,更加关心客户的实际体验。Databricks的人申请了一个测试账号,然后按照教程跑了,结果发现测试数据大概在4000秒左右,确实比巴塞罗那超级计算中心的测试结果快的多,怎么回事呢?他们检查发现,Snowflake准备的TPC-DS数据集居然是前几天的,于是Databricks 上传了官方的数据集,然后用同样硬件又跑了一遍测试,结果发现测试的速度果然慢了一倍,和之前巴塞罗那超级计算中心的测试速度差不多。
11 月 15 日,Databricks 的创始人再次在其公司博客上给予回应,表示自己做的就是“客户至上”的基准测试,指责 Snowflake 为了测试结果准备的TPC-DS 数据集有问题。几个回合下来,Benchmark之争最终不了了之,探究其争吵原因,不妨回顾过去两年这两家公司发生的融资事件。
回到美东时间2021年2月1日上午,Databricks宣布已完成10亿美元的G轮融资,估值达280亿美元,与2019年10月F轮融资完成后的62亿美元估值相比,上涨近5倍。本轮融资由Franklin Templeton领投,Amazon Web Services Inc.、Salesforce.com Inc.、谷歌母公司Alphabet及Fidelity跟投,其早期的投资者还包括微软Microsoft Corp.和Andreessen Horowitz llc.。同年8月31日,Databricks 再获一轮融资,宣布获得16亿美元 H 轮融资,由摩根士丹利的 Counterpoint Global 领投,三个顶级云供应商 AWS、微软以及 CapitalG(Alphabet 旗下资产增长型的投资组合部门)都参与了此轮投资,三家云厂商的Amazon Redshift、Microsoft SQL Server和Google F1数据库产品同时也是Databricks数据库产品的主要竞争对手。融资完成后Databricks 的估值成功达到 380 亿美元,相较之前的 280 亿美元估值上涨了近36%。至此,Databricks获得的融资总额达到35亿美元。Crunchbase数据指出,自Snowflake在首次公开募股以来,风险资本对分析和数据管理初创企业的投资热潮已经达到了近170亿美元。其中有150多亿美元是在过去 8 个月里筹集的,而 Databricks 一直是其中的典型代表,这家重量级独角兽将于今年上市,成为2022年最值得期待的IPO之一,预计今年该公司员工数将从2300人增加到3000人以上。
为什么Databricks技术很牛,却表现出如此急切的进攻态势。首先回顾下两者的产品定位,广义来看,两者的数据库产品本质均为分析型数据库。Snowflake将其产品称为“Data Cloud”,实则为云上数据仓库,其做的各种如ETL、AI等扩展均为数据仓库服务,数据仓库产品定位清晰明确,市场已存在几十年,云上数仓即以云服务的方式提供数据仓库服务,产品理念客户易于理解。Databricks起家于Spark,一开始想做如机器学习、图计算等等很多方向,后来Deep Learning的出现某种程度上宣告了Spark作为独立的机器学习引擎努力的失败。数据仓库行业历来利润丰厚,为了争夺这块市场,寻求最佳销售策略,同时不能打脸一直在推广的数据湖Delta Lake,于是LakeHouse便诞生了,用“Lakehouse”这一合成词来描述形态自由的数据湖。Snowflake于2020年9月在纽交所上市,上市首日市值707亿美元,创下软件公司史上最大规模IPO。Snowflake在上市前最后一轮融资是2020年2月的第八轮(G轮)融资,由Dragoneer投资公司和Salesforce Ventures领投的4.79亿美元。Snowflake在G轮融资后估值达到124亿美元。由此看来,为了给资本市场续写更好的故事,为取得下一次软件公司IPO奇迹赢得可能,Databricks与Snowflake这一仗必打不可。
回看国内,随着数据分析行业的爆发式增长与竞争烈化,近些年分析型数据库创业公司日益涌现,产业资本不断涌入,获得融资的公司数量及额度均大幅增长。据公开资料统计,2013-2021年,主打数据分析场景的数据库企业成立数量为11家,占总数据库企业总成立数量的24%,融资次数共计约40余次,融资总额约近50亿元人民币。值得关注的是,滴普科技自2018年11月获得天使轮后,分别在2019年3月、9月完成了Pre-A轮和A轮融资,2020年5月、11月和12月完成了A+、A3和A4轮融资,2021年8月完成1亿美元B轮融资,至此在3年内已完成7轮共计2亿多美元融资,初心资本、IDG资本、高瓴创投、招商局创投、五源资本等头部机构纷纷入局。
我国典型分析型数据库(部分)

第三方评测数据同样显示,分布式分析型数据库赛道逐渐火热。2019-2021年,中国信通院分布式分析型数据库评测数量和节点规模不断攀升。
基础能力方面,中国信通院于2021年上半年联合南大通用、华为、四维纵横、腾讯云、新华三等企业修订更新了标准《大数据 分布式分析型数据库技术要求与测试方法》,新增了如XML数据类型支持、空间数据处理、JSON支持、向量分析、机器学习等6个测试项目。共计6款数据库完成了更新后标准的首批评测,分别为杭州章十πDB、天云融创Hubble、滴普科技FastData for DLink、腾讯云TDSQL-A、人大金仓分析型数据库系统和偶数科技Oushu Database。
性能方面,截止2021年12月,第十三批大数据产品能力评测显示,分布式分析型数据库大规模性能测试节点规模,由第十二批南大通用Gbase8a保持的4096节点记录,被本批阿里云MPP数据仓库产品Hologres以8192节点再次刷新该评测现有参评规模记录。而在仅一年前的2020年12月,该记录保持者为2048节点规模的华为云GaussDB(DWS)。阿里云刷新本次性能测试的工具为信通院自研,面向金融和电信双场景的数据库性能测试工具Databench-A。此前参加金融分析型性能测试场景的产品还有东方国信CirroData、阿里云AnalyticDB PostgreSQL、录信LSQL和聚云位智的LinkoopDB;参加电信分析型性能测试场景的除了Hologres和Gbase8a,还有天翼云诸葛AI-大数据平台和柏睿数据RapidsDB。

首批分布式分析型数据库产品基础能力评测开始于第七批大数据产品能力评测。因评测标准更新,本次选取参与更新后评测的第十三批次进行汇总分析,共计6款产品通过评测。分布式分析型数据库基础能力评测包括基本功能、运维能力、安全能力、扩展性能力、高可用能力和兼容性能力共计33项必选项和24项可选项。

第十三批的参测产品测试项目通过率平均为78.65%,可选项通过率平均为49.31%。通过率最低的前五个测试项为动态诊断事件、缓存管理、节点组管理、集群灾备、缩容不中断业务。
第十四批中国信通院分布式分析型数据库系列评测报名正在火热进行中!

联系方式
刘思源 13691032906
liusiyuan@caict.ac.cn






