目录
产品简介
Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。
产品功能
- 提供统一的 Catalog 服务,对齐 Hive Metastore,Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓。
- 提供全托管的湖仓维护功能(Maintenance Function),包括但不限于数据自优化、数据过期、快照清理、元数据同步等。不同于引擎端实现,Amoro 希望通过全托管的湖仓维护功能打造数据在不同引擎之间的高可用性和开箱即用。
- 向下支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。
- 提供开箱即用的管理工具,包括但不限于 DSL 指令、Metrics、Dashboard。
产品特点
-
自我优化
持续优化表,包括压缩小文件、更改文件、定期删除过期文件,以保持较高的查询性能并降低存储成本。 -
多种格式
支持Iceberg、Paimon、Mixed-Iceberg、Mixed-Hive等不同表格式,满足不同场景需求,并提供统一管理能力。 -
目录服务
为所有计算引擎提供统一的目录服务,也可以与现有的元数据存储服务(例如Hive Metastore和AWS Glue)一起使用。 -
丰富的插件
提供各种插件与其他系统集成,例如使用Flink进行持续优化以及使用Spark和Kyuubi进行数据分析。 -
管理工具
提供多种管理工具,包括WEB UI和标准SQL命令行,帮助您更快上手并更轻松地与其他系统集成。 -
独立于基础设施
可以在私有环境、云环境、混合云环境、多云环境中轻松部署和使用。
产品架构
Amoro架构图
- AMS:Amoro管理服务提供湖仓管理功能,如自我优化、数据过期等。它还为所有计算引擎提供统一的目录服务,也可以与现有的元数据服务结合使用。
- 插件:Amoro提供广泛的外部插件选择,以满足不同场景的需求。
- 优化器:自我优化的执行引擎插件异步地对所有类型的表格式表执行合并、排序、去重、布局优化等操作。
- 终端:SQL命令行工具,提供像本地Spark和Kyuubi这样的各种实现。
- LogStore:基于像Kafka和Pulsar这样的消息队列,为实时数据处理提供毫秒到秒级的SLA(服务等级协议)。
支持的表格式
Amoro可以管理不同表格式的表,类似于MySQL/ClickHouse可以选择不同的存储引擎。 Amoro通过使用不同的表格格式来满足不同的用户需求。目前,Amaro 支持四种表格格式:
Iceberg格式:用户可以直接将自己的Iceberg表委托给Amoro进行维护,这样用户不仅可以使用Iceberg表的所有功能,还可以享受Amoro带来的性能和稳定性提升。
混合Iceberg格式:Amoro在Iceberg格式之上为流式更新场景提供了一组更优化的格式。如果用户对流式更新性能要求较高,或者对CDC增量数据读取功能有需求,可以选择使用Mixed-Iceberg格式。
混合Hive格式:很多用户在使用数据湖的同时,不希望影响原本建立在Hive上的业务。因此,Amoro提供了Mixed-Hive格式,只需通过元数据迁移即可将Hive表升级为Mixed-Hive格式,而原有的Hive表仍然可以正常使用。这样保证了业务的稳定性,并受益于数据湖计算的优势。
Paimon 格式:Amoro 支持以 Paimon 格式显示元数据信息,包括 Schema、Options、Files、Snapshots、DDL 和 Compaction 信息。
发展历程
-
2020 年开始
网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,希望基于 Apache Iceberg 为公司的业务搭建一套流批统一的存储层。在实践过程中孵化了流式湖仓服务 Arctic。 -
2021 年内
团队陆续发布 Arctic 0.1/0.2 版本,并率先在网易云音乐算法团队落地,通过 Arctic 管理上百 PB 的数据。随后又在网易传媒、网易有道等业务落地,帮助业务达到了降本增效的目标。 -
2022 年 8 月
网易正式开源了 Arctic。项目开源后受到了众多企业和开发者的关注,越来越多的用户开始试用 Amoro,并开始上线到生产环境中。同时一些用户也转变为贡献者,共同参与到项目的建设中来。 -
2023 年 8 月
由于社区对 Arctic 的期望是一个湖仓场景下更加通用的系统,以及考虑到项目长期的发展,Arctic 正式更名为湖仓管理系统 Amoro,并发布新的LOGO和官网。 -
2024 年 3 月
为了更好的通过社区驱动技术的演进,网易正式将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。
所属公司
网易
相关资料
Amoro项目官网:https://amoro.apache.org
Amoro Github地址:https://github.com/apache/amoro