最近在研究一些新玩意,就是在基础软件、基础应用外的新东西。流存储,当然这个领域不是太熟,这是个工具软件,我之前也没用过,但Kafka身边用的人很多。先抛砖,懂的人后台给我留言,让我学习一下。Confluent的产品Apache Kafka 是动态数据的行业标准。它是最成功的开源项目之一,现在 70% 的财富 500 强在使用,国内各大券商的IT部门也在使用这个产品,但没付费。现代应用程序有望与 Apache Kafka 集成, Kafka 的技术技能已成为行业的关键要求. Confluent Apache Kafka 的功能,以云的模式提供,和大企业连接,具有大规模处理数据的的能力。Kafka的发展,有个重要的基础是微服务的发展。企业正在通过微服务将应用程序模块化为更小的组件,增加了数据流的复杂性。这种复杂性带来了更大的延迟,这对于希望以无缝方式连接所有类型的数据和应用程序的现代企业来说是不可接受的。还有云的混合,现在公共云服务支出仅占系统基础设施软件支出的17%。很多公司还是大规模的本地部署。一个分散的数据存储环境——一些数据存储在本地和私有云中,一部分在各种公共云上,数据在它们之间移动。这时候就需要存储的分区。Kafka 是流式计算里最出名的实现,其要义就是分区,一个主题包含了分布在多个不同代理上的“桶”。这种分布式数据存储方式对伸缩性来说至关重要,因为客户端可以同时从不同的代理读取数据。
流存储的应用范围广,传统数据基础设施并非为动态数据而设计。它们构建和部署应用程序的传统方法是将应用程序与数据库配对,该数据库存储数据,然后由应用程序定期检索。这种以数据库为中心的方法在数据仓库、关系数据库和 NoSQL 数据库中很常见。数据库源于数据存储传统。它们管理存储数据的存储库,并允许应用程序通过查询按需访问该时间点数据集。它们是一个设计用于管理静态数据的平台。现在执行业务运营和提供客户体验的系统必须是实时集成的。他们必须跨越基础设施孤岛,并随着事件的发展不断做出反应、响应和适应不断发展的业务。为了实现这一点,数据基础设施必须支持来自整个组织的持续数据流,并能够构建实时反应、处理和响应该数据流的应用程序。换句话说,为了应对这些挑战,公司需要一个为动态数据构建的数据平台。Kafka目前就是最成功的应用。现在全球1/3 涉及到大数据处理的公司几乎都会用这个产品。但是大的互联网公司会基于开源的Kafka自己做封装,完成实现,小的公司或者其它行业公司会选择Confluent的产品。Confluent是Kafka班子成立的,它们提供企业版的Kafka工具套件。为什么会有人订阅这些工具套件呢?因为有能力稳定运维 Kafka 这个开源软件的公司不多,而且Confluent也在不断的改进 Kafka,给它贡献新的代码。所以海外很多公司也会直接为它付费。用开源的也可以,就是公司自己要做很多封装和接入自己的系统,能做稳定不容易。比如Roblox 现在想用Kafka,自己的工程师都没有精力做,还在用AWS 的一个消息队列。
Confluent是码农特别承认的一家公司,产品评价极高。但这离一家优秀的商业公司还差一步,就是模式问题。客户怎付费,怎么提升客户付费率?就像中国4.7亿人用金山,但是付费率只有4%。流存储的生态特别好,但因为Kafka开源,如何让更多的公司为Confluent的产品包付费,我还有点没想明白。虽然它去年2亿多美金收入,增速50%+,留存率120%以上。
归根结底是生态系统的问题。Confluent已经构建了定制的Kafka连接器,可以从几百个来源进行读写。使得在没有软件团队的情况下很容易开始ETL工作流。所有这些都是多云的,所以你不会被“锁定”在一个单一的云提供商。但接下来的问题是:对于一家公司来说,什么更便宜?是雇佣很少的数据平台人员来维护可扩展Kafka集群的日常运营,还是花额外的钱来使用Confluent的服务?这是关于核心竞争力的问题。像壳牌天然气公司这样的公司是不会雇佣一群开发者去部署和维护他们自己的Kafka集群的。有了Confluent,他们会过得更好。但微软肯定不会,它会基于Kafka的开源版本,找人封装链接。Confluent是一家开源和云友好的公司,比Teradata更好地解决了大数据分析问题。但我还是没太想明白,多少企业会成为它的付费客户?虽然Confluent 主打的 0 运维,客户反馈也比较好。大家都看到了它的稀缺性和远大生态前景,就是付费率这个东西预测不清楚。如果海内外为它付费的人看到这篇,请跟我后台留言探讨一下。