暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

给工程师的CDP - 开源CDP厂商RudderStack

老阎杂货铺 2022-02-28
2704

在开始今天的正式内容之前,先插播一个本周在海外现代数据技术栈的重量融资消息,我非常喜欢的dbt(海外数据转换工具独角兽 - dbt labs)刚刚close了2.22亿美金D轮融资,估值达到了42亿美金,看来IPO的大门正在逐渐给dbt打开。


今天我们会聊一个曾经在国内非常热门的领域-CDP领域的一个新兴的公司,RudderStack。之所以要聊聊这个公司是在春节期间(咱们大年初二),这个公司刚刚融完B轮5600万美金的融资,总融资额达到了8200万美金,估计估值应该在6亿美金上下。它是如何在前面有一个相对成功的Segment的情况下成长起来的呢?


01


RudderStack基本情况



  • 公司名:RudderStack

  • 官网地址:https://www.rudderstack.com

  • 创始人:Soumyadeb Mitra

  • 所在地:旧金山

  • 成立时间:2019年7月

  • 融资历史:

    • 2020年5月    种子轮500万美金  S28资本领投

    • 2021年6月    A轮融资2100万美金  Kleiner Perkins资本

    • 2022年2月    B轮融资5600万美金   Insight Partners领投


RudderStack的创始人Soumyadeb Mitra是伊利诺伊香槟分校的计算机科学的博士,在创立RudderStack之前曾经作为创始人创立了Mariana,Mariana最终被8x8收购,而Soumyadeb Mitra也因为Mariana被收购进入了8x8。在8x8工作一年多以后,Mitra离开8x8并创立了RudderStack。



02


CDP简介



前面介绍完了RudderStack的基本情况,让我们稍微地介绍一下CDP的概念。相信对于很多从事数据技术相关工作的朋友来讲,CDP不是个陌生的概念。尤其是近几年营销科技(MarTech)赛道的火热,催生了国内不少在CDP这个赛道进行竞争的厂家。我过去也曾经带团队做过CDP相关产品的研发,并且亲身经历过几个国内知名客户的CDP项目的投标和项目实施的工作。CDP是Customer Data Platform的缩写,直译过来就是客户数据平台。我们还是老习惯,先从维基百科找一下定义:


A customer data platform (CDP) is a collection of software which creates a persistent, unified customer database that is accessible to other systems. Data is pulled from multiple sources, cleaned and combined to create a single customer profile. This structured data is then made available to other marketing systems. According to Gartner, customer data platforms have evolved from a variety of mature markets, "including multichannel campaign management, tag management and data integration.


从功能上来讲,CDP要能够接入一个企业所有与自己的客户相关的数据,这些数据可能包含来自于CRM等系统一些基本的属性数据,比如性别、年龄等等数据,也能包含客户在这个企业能触达到用户的所有的媒介上的行为数据,比如广告的点击、登录页浏览、加购、购买等等数据。通过将多方数据整合在一起,CDP就可以基于一定的规则对用户进行刻画,我们俗称打标签。基于这些进一步对客户数据的深加工之后,一个企业就可以将自己的客户进行分群,进而进行后续的营销和客户运营活动。比如对接营销自动化MA系统进行自动的营销,对接广告平台的DMP进行再营销等等。由于国内有各种CDP相关类型的公司,细节我这里不再展开,相关的材料各个厂商都有很多。总的来讲,CDP是一个企业做数据驱动营销的一个核心的数据平台,称之为营销大脑似乎也不为过。


在海外,CDP这个市场发展了已经有一段时间,从大约2016年左右开始变得越来越热门,其中有不少提供CDP产品解决方案的公司取得了不错的成果,一个主要的代表就是Segment。相信国内有不少朋友非常了解这个公司,毕竟做营销科技的竞品调研,Segment是一个不可能被忽略的公司。这家2011年成立的公司融资了超过2.8亿美金,并最终被Twillio于2020年11月花了32亿美金收购。


我们今天要介绍的RudderStack则是海外CDP市场上最新的一股力量,正如前面所说,成立两年多的时间就获得了超过8000万美金的融资,估值也一路上涨。这个RudderStack相对Segment等一众CDP有什么不同呢?它又做对了什么能取得投资商的青睐呢?



03


RudderStack有什么不同?




首先我们看看RudderStack在自己官网上如何定位自己的:


在RudderStack的定位中,CDP本身是数据基础设施,因此对开发者友好很关键。不同于传统的CDP把自己的目标定位为市场人员,RudderStack把自己的用户定位为开发人员。公司的CEO在接受采访的时候说:"传统的CDP厂商,他们的目标用户是市场部门,追求的是营销的预算。但是,如果你看看像亚马逊这样的最先进的公司,将这个客户数据基础设施放在一起的不是营销团队——很大程度上是工程团队、数据团队,也许是增长团队— 包含数据团队的增长团队,是他们正在构建这个基础设施。这是为什么我们下这个赌注的原因“。


从技术方案选择上,因为RudderStack是2019年才成立,因此也与10年前成立的Segment等公司有完全不同的选择。正如前面截图列出来的它自己的特点:统一、数仓优先、实时。


这里不得不继续把话题引回到现代数据技术栈,自从云端数据仓库变为了新的数据技术的最核心的基础,基于云端数仓重新构建数据技术体系就成为了新的机会。过去我们提到的Fivetran, dbt, airbyte都是如此的。而RudderStack也是采用这种方式。在数据接入层,因为RudderStack是一个客户数据平台,所有的数据都是围绕着客户相关的数据,因此采用统一的数据模型,然后通过自己的链接器将数据从不同的数据源接入,接入的数据会存储到数据仓库中。大家可能会好奇这一部分能力与Fivetran和Airbyte有什么区别。可以这么理解,Fivetran和Airbyte是更通用的数据集成方案,数据的来源和种类不会有太多限制,是个纯粹的数据集成工具。而RudderStack则是面向客户数据的数据集成工具,接入的数据种类和数据来源更垂直和业务化。虽然技术上相同,但是目的不同。 


数据接入到数据仓库后,RudderStack对数据进行关联、清洗和加工后,数据可以被用作不同的用途,包括机器学习、分析、对接输出到营销系统以及Kafka和Redis等数据存储中间件。


由于对于营销来讲,实时营销是个非常重要的需求,因此RudderStack支持实时数据流的接入和输出。这也是相对于Segment更为有优势的一点。



Rudderstack的相关功能概念图如下:



另外,由于RudderStack定位面向工程技术人员,因此它的主要的访问用户界面是API,而不是可视化的界面,这也是RudderStack与Segment的一个比较大的区别,具体优劣,就是见仁见智了。


在官网上,RudderStack重点地罗列了自己相对Segment的优势和区别。对于一个新生力量来讲,拉个巨头做对比,无论是从市场角度还是传播角度,这都是一个非常不错的策略。具体对比Segment, RudderStack强调了如下四点:


  • RudderStack是开发者优先的,源代码开源并且API优先。RudderStack采用了AGPL 3.0的开源license。

  • RudderStack是数仓优先的,符合当今趋势

  • RudderStack自己不存储任何用户的数据(数据已经在客户数仓里了),因此更安全

  • RudderStack的定价方式是基于用量的计价方式,而不是Segment的按月计量的方式。但是仔细看RudderStack的官网上的定价表,我却发现它的定价策略似乎并不是基于量,而也一样是按月的,具体如下:


我们再来看看Segment的定价:



两个公司的产品的入门版本都是免费,RudderStack在免费版之上提供了Pro版本,定价是750美金每月,没有事件数量的限制。 而Segment提供的是Team版本,每个月120美金起,但是事件数量限制为每个月10万UV,然后每个月每增加1000UV,会多花10美金。 两个公司都提供企业版,企业版本的定价都是需要跟销售进行沟通。两个产品的定价的差异我相信与产品的技术选择有关,因为RudderStack自己不负责存储,只是把数据从数据源转换并存储到数据仓库中,减少了存储的成本。对于大部分的云端用户来讲,数据的来源和规模并不大,因此一个固定定价足够能够保证自己的收益了。



04


RudderStack市场做得如何?



RudderStack由于是后来者,进入市场的选择就非常关键。由于它定位为面向开发者的CDP平台,因此RudderStack采用了对获取开发者更友好的开源方式。在github上,我们可以看到RudderStack的数据如下:



3000左右的Star数量,192个fork,总体来讲还算不错的表现。不过对比成长更迅速的Airbyte来讲,还有一定的差距,Airbyte目前已经有5800多个Star以及超过1200个fork。当然,Airbyte相对RudderStack的应用场景更广也是一个非常重要的因素。


我们再来看看semrush上rudderstack和Segment的用户访问数据的对比:


从这张图可以看到,RudderStack每个月有差不多8万多独立访问用户,但是Segment有36万多,RudderStack距离Segment还有不小的距离。不过考虑到这是一个不到三年的公司,数据也相当不错了。


RudderStack的网站的数据来源如下:


可以看到有64%的访问来自于直接访问,这可能归功于Rudderstack的开源社区的贡献。另外,从Google搜索的自然流量来源差不多是11%。


自然搜索流量的关键词列表如下:


可以看到google sheets作为关键词能带来百分之5左右的流量,内容是rudderstack文档中关于如何连接Google Sheet的介绍。看来无论是写文档,还是写博客,Google家的产品关键词放在里边还是对于自己的搜索优化有一定的帮助的。


秉承海外公司做SEO优化的一贯特点,RudderStack有与segment的对比,不过总体感觉,RudderStack在SEO优化以及内容市场方面,做的一般。



05


总结一下



基于云的现代数据技术栈正在替换原来的数据基础设施是一个必然的趋势。云端数据仓库和数据湖会逐渐成为企业存储自己数据资产的核心。而基于这个核心为基础,所有的曾经的数据工具都需要按照新的思路去设计和实现。RudderStack正是在这个趋势下顺应潮流发展起来的公司。在2020年底参加某个国内客户的技术交流时,这个客户就打算以云端数仓为基础,将自己的行为分析平台进行重构,替换原来那个自封闭的行为分析系统。再结合使用数据平权化的趋势,更开放兼容、更贴合自己目标用户(真正工具使用者而不是购买决策者)的数据工具必然会在未来获得更大的成功。






文章转载自老阎杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论