

图1 新榜平台首页
1. 数据时代的新媒体内容管理痛点

原技术方案解析

新榜在原方案中通过搭配Elasticsearch、在线分析库和离线处理库实现业务需求,其中Elasticsearch承接了点查和多维检索需求,在线分析库承接报表生成和聚合查询的需求,离线处理库则负责数据的批量处理。
这套架构承载着作品、创作者、话题等多维度的数据存储,以及多维度的关联查询和聚合查询,并且由于包含了大量的点赞数、评论数等实时内容,还需要每日更新大量数据。
Elasticsearch入库性能差:业务员系统每日承接4000万+条新作品数据写入和2亿+作品/日的批量拉取和更新需求,面临着显著的写入性能瓶颈,峰值时段时倒排索引构建延迟达5秒。 在线分析库更新能力差:高频更新时延迟极高,大数据量的多表聚合操作依赖预计算临时表。 架构复杂导致数据冗余:同一份数据在多个系统存储多份,存储成本高,资源利用率低。 多组件运维和开发复杂度高:需要运维多组件并完成数据链路的搭建。新业务需求需适配多端接口,开发周期与成本成倍增长。
海量更新与批量分析:支持每秒万行级别数据更新、千万级别数据量和低延迟的实时分析。
灵活查询:
成本优化:降低存储与计算资源消耗,减少数据同步维护的成本。
2. Lindorm多模融合方案应对


阿里云瑶池旗下的云原生多模数据库Lindorm作为多模融合的一体化平台,涵盖了宽表、搜索、列存和计算的能力,对标客户原先ES+分析库+离线处理库的架构。

图4 Lindorm多引擎方案对标原方案
客户价值
对于新榜平台的新业务,通过统一的Lindorm SQL接口对多个引擎进行调用,实现数据的高效写入和查询,这种方式更加简单易用,降低了开发和维护的复杂度。 对于新榜在Elasticsearch上的存量业务,业务代码可以保留ES API的用法,直接丝滑迁移到Lindorm,无需进行改造。

图5 Lindorm的统一SQL入口
▶︎ 去除冗余,降低成本
Lindorm的多个引擎使用统一的冷热分离存储层,原始数据只需存一份,同时建立多份索引,支持查询自动回查和整合。新榜使用原方案时,全量数据需要分别在Elasticsearch、在线分析库和离线处理库存一份,造成了200%的冗余数据,存储成本高,而Lindorm的一体化方案仅需存储一份原始数据:
完整数据统一存储在宽表引擎内,Lindorm支持按照冷热分割线进行底层数据的自动冷热分离,极致降低存储成本;查询时则会自动查询冷热两边的数据,业务侧无感知。 对于需要进行多维检索和轻量聚合的数据列,建立搜索索引,并存储在搜索引擎内。 对于需要进行分析和大数据量聚合的数据列,建立列存索引,并存储在列存引擎内。

图6 Lindorm存储层支持自动冷热分离
▶︎ 超高性能,降本增效
Lindorm的宽表引擎由HBase演变而来,经过Lindorm团队的多年打磨,能够支持千万级别并发写入和点查,分担搜索库压力,同时通过深度优化的压缩降低存储成本。
Lindorm的宽表引擎能够高效应对频繁更新和大批量数据拉取的场景,与新榜原先使用的Elasticsearh相比,Lindorm宽表的高并发写入能力和点查性能有数量级的提升。Lindorm宽表支持每秒千万级别的并发写入/更新/查询,完全分布式的设计支持架构无限横向扩展,满足了新榜每日大批量数据更新和根据作品id、用户id等主键字段高并发点查的需求。 宽表引擎使用深度优化的ZSTD压缩算法,相较于常见数据库,可以将存储空间降低至50%,从而有效降低存储成本。

图7 Lindorm通过超高压缩率降低存储成本
在Lindorm内部,从宽表到搜索、宽表到列存的数据同步链路通过索引建立自动搭建,列存到宽表的数据链路则通过SQL命令完成。业务侧无需关心链路及数据一致性问题,从而降低了日常运维成本,新业务接入更加敏捷快速。 按需建立索引后,客户侧视图为一张大宽表,部分列可点查,部分列可多维检索和全文检索,部分列可进行实时分析和批处理,可直接进行查询和完整结果返回。

图8 Lindorm提供统一的查询和分析体验
3. Lindorm多模数据库介绍


图9 Lindorm多模一体架构
Lindorm是面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询、搜索分析等一站式数据服务,兼容MySQL协议、HBase、ES、Hive、Spark、HDFS等开源标准。提供宽表、搜索、时序、向量等数据模型,适用于多行业多场景,典型场景有车联网的一站式平台、高并发写入和点查场景(替换HBase)、DB+搜索一站式场景、AI智能搜索场景等。
Lindorm已服务于阿里集团淘宝、支付宝等核心业务十余年,充分打磨了产品稳定性和高性能。目前集团外部深度使用Lindorm的客户有小米、理想、携程、申通、月之暗面、莉莉丝等行业头部客户。
4. 总结

新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。

点击了解 云原生多模数据库Lindorm







