
点击蓝字,关注我们

作者 | Alireza Sadeghi
译自Practical Data Engineering
引言
工具选择标准
开源生态现状(2025年)
许可协议挑战与行业贡献
许可协议争议:Redis、CockroachDB、ElasticSearch、Kibana等老牌项目转向更封闭的许可协议(Elastic随后宣布回归开源)。 行业巨头贡献:Snowflake贡献Polaris、Databricks开源Unity Catalog、OneHouse捐赠Apache XTable、Netflix发布Maestro,彰显企业对开源的支持。
基金会动态
Apache基金会:持续孵化前沿项目,包括Apache XTable(通用表格式)、Apache Amoro(湖仓管理)、Apache HoraeDB(时序数据库)、Apache Gravitino(数据目录)、Apache Gluten(中间件)和Apache Polaris(数据目录)。 Linux基金会:托管Delta Lake、Amundsen、Kedro、Milvus、Marquez等明星项目,2024年新增vLLM(加州大学伯克利分校捐赠)和OpenSearch(从AWS移交)。
开源模式之争:Open Core vs Open Foundation
九大核心分类概览
存储系统:OLTP、OLAP及专用存储引擎 数据湖平台:湖仓架构工具 数据处理与集成:批流处理框架与Python工具 工作流编排与DataOps:流水线编排与数据运营管理 数据集成:数据摄取与CDC工具 数据基础设施:容器编排与监控组件 ML/AI平台:机器学习与向量数据库 元数据管理:数据目录与治理 分析与可视化:BI工具与可视化框架
1、存储系统
OLAP扩展与HTAS架构:
PostgreSQL生态涌现OLAP扩展(如MotherDuck的pg_duckdb、Crunchy Data的pg_parquet),将OLTP数据库升级为支持数据湖的HTAS(混合事务分析存储)系统。零磁盘架构崛起:
基于S3等远程存储的架构成为主流,SlateDB、Apache HoraeDB等新系统原生支持,Apache Doris、StarRocks等老牌系统2024年跟进。其他亮点: Redis闭源后,Valkey成为最受关注的开源替代品,获Google Memorystore和Amazon ElastiCache支持。 PostgreSQL生态的Elasticsearch替代品ParadeDB、流式存储系统Proton和Fluss推动流批融合。
2、数据湖平台
原生表数据库兴起
一些值得关注的例子包括:
Delta-rs:这是一个原生的 Rust 库,用于 Delta Lake,并提供了 Python 绑定。它允许开发者直接操作 Delta Lake 表,而无需依赖 Java 或 Apache Spark。 Hudi-rs:这是 Apache Hudi 的原生 Rust 实现,同样提供了 Python API。它使 Python 和 Rust 生态系统中的开发者能够更轻松地访问 Hudi 表,而无需依赖 Apache Spark、Java 或 Hadoop。 PyIceberg:这是一个正在发展的 Python 库,旨在增强对 Iceberg 表格式的访问能力,使其能够在默认的 Spark 引擎之外使用。
3、数据处理与集成
单节点处理的崛起
流处理
Python处理框架
4、工作流编排与DataOps
数据质量
数据版本控制
数据转换
5、数据集成
变更数据捕获(CDC)框架
事件中心(流式发布/订阅服务)
6、数据基础设施
7、机器学习/人工智能平台
8、元数据管理
9、分析与可视化
BI即代码解决方案
可组合BI堆栈
MPP查询引擎
未来展望与结论
开放表格格式领域的进一步整合 实时和事务性系统中零磁盘架构的持续演变 提供统一湖仓体验的追求 LLMOps和AI工程的崛起 数据湖仓生态系统在开放目录集成和本地库开发等领域的扩展 单节点数据处理和嵌入式分析的日益关注

·END·

用户案例
迁移实战
发版消息
加入社区
参与Apache DolphinScheduler 社区有非常多的参与贡献的方式,主要分为代码方式和非代码方式两种。
📂非代码方式包括:
完善文档、翻译文档;翻译技术性、实践性文章;投稿实践性、原理性文章;成为布道师;社区管理、答疑;会议分享;测试反馈;用户反馈等。
👩💻代码方式包括:
查找Bug;编写修复代码;开发新功能;提交代码贡献;参与代码审查等。

你的好友秀秀子拍了拍你
并请你帮她点一下“分享”
文章转载自海豚调度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
阿里云李飞飞:将大模型,装进数据库里
科技行者
392次阅读
2025-02-28 11:47:59
金仓数据库26套!宁波市司法局信息系统适配改造(一期)采购项目
天下观查
313次阅读
2025-03-21 10:33:59
达梦数据与法本信息签署战略合作协议
达梦数据
280次阅读
2025-03-06 09:26:57
大连农商40万,采购Greenplum数据库原厂订阅服务
天下观查
270次阅读
2025-03-13 09:52:29
国产化+性能王炸!这套国产方案让 3.5T 数据 5 小时“无感搬家”
YMatrix
267次阅读
2025-03-13 09:51:26
IBM收购数据库厂商DataStax:瞄准向量和AI搜索
深度数据云
260次阅读
2025-02-28 12:04:04
国产数据库高光时刻!天翼云TeleDB荣登TPC-DS全球测评总榜第二
天翼云开发者社区
181次阅读
2025-03-13 17:24:48
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
SelectDB
177次阅读
2025-03-03 11:23:24
神州数码携手云原生数据库 PolarDB,共筑国产数据库新生态
神州数码集团
167次阅读
2025-03-03 18:04:27
DBAIOPS社区将在知衍平台上推出数据库运维智能体
白鳝的洞穴
164次阅读
2025-03-07 10:29:18
热门文章
最新性能测试 | Apache DolphinScheduler 每分钟调度任务并发是 Apache Airflow 2 倍
2023-01-30 4189浏览
Apache DolphinScheduler 任务调度3.1.0版本源码剖析
2022-12-22 3289浏览
DolphinScheduler 能用 Python 脚本编排工作流了!PyDolphinScheduler 简介与使用演示
2022-11-08 2752浏览
最佳实践 | 联通数科基于 DolphinScheduler 的二次开发
2021-11-09 2576浏览
Apache DolphinScheduler 使用文档(7/8):系统参数及自定义参数
2020-03-31 2507浏览