暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片

【墨天轮专访第六期】StarRocks:迎来历史机遇,争做世界级产品

原创 墨天轮编辑部 2021-11-12
3270

导读:最近StarRocks刚刚召开了第一届年度峰会,墨天轮特别邀请StarRocks的创始人从国产数据库的角度来和网友们聊一聊当前国产数据库的情况。同时也能让网友们进一步了解贵司的数据库产品,便于用户的选择和学习。

目前国产数据库处于百花齐放的状态,很多DBA对各类国产数据库还是处于观望的态度。墨天轮征集了一些与国产数据库相关的社会讨论度较高,网友较为关心的问题,希望从StarRocks的角度给大众一些不一样的更深层次的解读。

 

StarRocks COO叶谦

 

— 以下为采访全文 —

 
墨天轮:介绍下贵公司的数据库产品及优势,以及主要的目标用户是谁?

叶谦: StarRocks是新一代极速全场景MPP数据库。其性能在同类型产品中有显著优势。StarRocks具备极速的任意维度OLAP分析和Adhoc查询能力,能赋予业务全新的洞察灵活性和速度;StarRocks可以支持数据秒级实时更新,写入数据立即可见,帮助用户显著提升业务洞察的实时性;StarRocks支持数千用户同时进行分析,可以赋能更多用户进行业务洞察;StarRocks还支持基于多种数据模型的极速分析,赋予业务全新的构建灵活性和速度,能帮助用户快速响应业务变化。

为了实现上面的功能,StarRocks 引入了很多技术创新:

  • StarRocks采用全面向量化技术,实现了在OLAP多维分析、实时数据分析、高并发数据分析、探索式数据分析等多场景的极速分析,比上一代同类型产品快3—5倍。

  • StarRocks采用新一代弹性MPP架构,无外部依赖,充分利用多机多核的能力,分布式关联查询能力强悍。StarRocks采用新一代基于运算成本的查询优化器,大幅提升AdHoc查询能力,TPC-H标准测试的结果比同类产品快7—10倍。

  • StarRocks还具有新型的列式存储引擎,支持多种数据模型,有效支持数据的快速写入和快速查询。特别是在有大批量数据写入的场景下,能够同时保证线上查询的效率。

  • 此外,StarRocks还能实现大数据规模(PB级)下的在线弹性扩缩容,无需停服务,业务高可用。

StarRocks的产品并没有行业限制,无论是哪个行业,只要对数据分析和数据驱动有需求,对于快速获取数据洞察有需求,都可以尝试我们的产品。


墨天轮:贵司的数据库目前取得了哪些成绩?

叶谦:StarRocks是2021年初正式发布的,到目前已经有超过70家市值或估值在10亿美金以上的公司在生产环境使用StarRocks来解决它们的数据分析问题。这个数字是我们统计到的,没有统计到的还有更多。这些上线的公司将StarRocks应用到了不同的场景里。其中包括多维分析场景,实时分析场景,高并发查询场景等。

这些公司引入StarRocks的初始原因,往往是某个数据分析场景,之前的方案功能或性能无法满足需求,比如说不支持Join,复杂查询不能秒级返回等,而StarRocks能很好地满足这些场景的需求,并且运维简单,学习成本低。所以这些公司很容易就引入了StarRocks。随着使用地深入,这些公司发现,有不少其他的场景,也可以用StarRocks来做,而且能比原来的效果更好。于是这个公司就会把越来越多的场景迁移到StarRocks上,并逐步替换一些老的系统,使得整个公司的数据分析架构往一个统一的方向发展。

 
墨天轮:贵司的数据库产品未来有什么规划,或者重点突破的方向?

叶谦: 经过一年多的发展,我们已经在多个层面建立起了相对的领先优势,全面向量化引擎和新一代的CBO优化器,为客户提供极速的数据分析体验;高性能更新引擎,帮助客户更好地进行实时数据分析。除此之外,我们在极简架构,灵活的数据模型支持,高可用,易运维等方面的工作,也得到了用户的肯定。这些核心技术的内幕我们后续会组织技术Meetup来分享,欢迎感兴趣的同学关注。

未来,我们的产品将向以下几个方向发展:

  1. 我们将设计全新实时和离线融合的云原生架构,可以同时高效管理实时数据和离线数据。虽然云原生标杆Snowflake在离线数据场景下打造了先进的存储计算分离架构,但是这个架构在实时数据分析支持上存在很大不足。我们将设计新一代云原生架构,同时支持实时数据和离线数据的高性能写入和读取,实现数据统一,弹性扩展。

  2. 我们还将设计全新流批融合的向量化计算引擎,可以同时进行极速的批处理和流处理。通过打造全新的向量化批处理引擎,可以实现比Apache Spark快5~10倍以上的批处理速度。同时完美融合流式语义,利用向量化技术提升流处理性能。

  3. 我们还将从多个方面进一步提升产品能力。我们已经着手研发新的并行处理模型,可以智能调节计算的并行度,这一方案也会大大提升系统的并发能力;导入方面,我们会使用更一致的用户界面来降低从各种数据源导入StarRocks的工作量;我们将进一步提升系统对半结构化数据,比如Json/Map的支持力度;我们将实现更好的多租户资源隔离机制,完善用户权限管理;我们还将提升物化视图的能力,支持多表视图来降低建模的复杂度,以及实现视图的按需物化,从而简化数仓分层。

 
墨天轮:针对数据库行业,您认同“得DBA者得天下”这句话?

叶谦: 时代在发展,DBA的定位和价值也在发展和变化。之前DBA的工作可能更多在于数据库的运维和查询的优化。但是随着数据库技术的发展,现在的数据库越来越智能,越来越便于运维,DBA的工作范围也随之发生变化。现在DBA工作的重点可能是紧盯数据库的发展趋势,找到最合适的数据库产品,更好地支撑业务、控制成本了。对于一个商业化公司来说,支撑好业务发展永远是最重要的事情,DBA也需要从支撑业务的角度来思考自己对于公司的价值。

 
墨天轮:对于新手来说在学习数据库方面有没有什么好的学习建议?

叶谦:实践永远是最快的学习方式。对于一个新手来说,先了解一下一个数据库的整体情况和适用场景是必要的。然后就要找到一个合适的实际应用场景进行实践。如果遇到问题,可以查看文档,或者到相关的社区进行交流讨论,比如说StarRocks就有一个专门的论坛,forum.starrocks.com,可以讨论和交流各种相关的问题。这种实践的方式是最快的学习方式。

 
墨天轮:目前国内外对于数据库开源都有不同的意见。一些国产数据库也逐步进行了开源,那开源到底好不好?以及开源是否能带来直观的收益。

叶谦:2021年9月,StarRocks开放了源代码。在StarRocks前,已经有很多前辈在这方面进行了很多探索和尝试。比如说Databricks,MongoDB,Confluent等公司。我们觉得能把源代码开放出来,本身就是一件有价值的事情。我们在考虑开放和商业化这两件事情的时候,更多在考虑如何让普通用户更容易地具备最强的数据分析能力。当然,我们也需要商业上的成功来持续为客户提供有价值的产品。

未来,我们的商业化路径会有两条:我们会提供一个具备更多企业级功能的企业版,包括更多的企业级运维工具,安全性和权限控制,资源隔离等功能;我们很快还会推出一个纯云原生的版本,和公有云厂商一起合作,直接为客户提供全托管的弹性服务。

 
墨天轮:您认为数据库国产化目前的难点是什么,或者说国产数据库发展的主要瓶颈有哪些?

叶谦:国产数据库在这几年确实迎来了难得的历史机遇。一方面是行业的发展,产业的进步催生了很多新的需求场景,比如说对海量数据存储和处理的需求,对实时大批量数据写入的需求,对高并发多维查询的需求等。这些场景都需要更强的数据库来支持;另一方面,从国家的层面来看,我们对核心基础软件国产化有很强的需求。最近,中共中央、国务院印发的《国家标准化发展纲要》里就专门提到了,要“开展数据库等方面标准公关,提升标准设计水平,制定安全可靠、国际先进的通用技术标准”。由于这两重因素影响,数据库领域当前的机会确实比较大。

国外的老牌数据库在这个市场中已经发展了很久了,目前很多大型企业的核心系统都是基于美国的老牌产品在跑。国产数据库希望完全替换的难度非常大。一方面,基于国外老牌数据库而构建的生态非常强大,很多数据库的上下游系统都是基于这些数据库标准而构建的。另一方面,国产数据库在稳定性和易用性等方面确实还需要积累。不过机会也同样并存,OLAP领域不断诞生的新场景带来新需求,国产数据库和国外在同一起跑线上。另一方面,我们现在在数据分析的不少方面,做得已经比美国同类产品要好了,企业选择国产数据库也并不是因为“国产”或者“性价比”,而是切切实实的选择一个性能更强,更加好用的数据库产品。

 
墨天轮:聊聊您对国产数据库未来的展望和寄语。

叶谦:希望我们的国产数据库能真正做出世界级的产品,去占领国际市场!

最后修改时间:2021-11-17 09:53:04
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
1人已赞赏
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论