InfoQ 推荐 ( ) • 2024-03-27 17:32

北京时间2024年3月11日,Amoro项目顺利通过投票,正式进入Apache软件基金会(ASF,Apache Software Foundation)的孵化器,成为ASF的一个孵化项目。

 

根据Apache软件基金会的投票结果邮件显示,本次投票共包含15个约束性投票和19个非约束性投票,所有的投票均为赞成,没有弃权票或反对票。

Amoro,开箱即用的湖仓管理能力

 

长期以来,在Hadoop、Spark、Flink、Trino等开源、开放、扩展性强的生态项目的支持下,湖仓已成为企业数字化转型中的重要选型。然而,湖仓的复杂性和技术门槛导致企业落地成本居高不下。

 

Amoro是建立在开放数据湖表格式之上的湖仓管理系统。2020年开始, 网易大数据团队在公司内基于Apache Iceberg进行湖仓一体架构的探索,孵化了流式湖仓服务Arctic。

  

2021年,团队陆续发布Arctic 0.1/0.2版本,并在网易云音乐算法团队落地,后在网易传媒、网易有道等业务落地。次年8月,网易正式开源了Arctic,项目受到了广泛关注并开始上线到生产环境中,用户逐渐转变为贡献者。

  

2023年8月,由于对Arctic的期望以及项目长期发展考虑,Arctic正式更名为Amoro,并发布了新的LOGO和官网。今年3月,网易将Amoro捐赠给Apache基金会,提案通过了Apache基金会的投票决议。

 

自2022年8月对外开源以来,Amoro不断有发现相同痛点的小伙伴加入到社区中,截至目前,Amoro共有19个上线用户和62位贡献者。

 

Amoro旨在提供开箱即用的湖仓管理能力,将湖仓的复杂性留给系统,简化给产品和用户。据介绍,Amoro 的功能主要包括:

 

提供统一的Catalog服务,对齐Hive Metastore、Rest catalog等开源标准,支持集成Glue等商业元仓,帮助引擎和产品构建流批统一的元仓;提供全托管的湖仓维护功能,包括数据自优化、数据过期、快照清理、元数据同步等,以实现数据在不同引擎之间的高可用性和开箱即用。支持对接不同的数据湖格式,包括Apache Iceberg和Apache Paimon,以及一种对流批一体场景更加优化的Mixed格式。提供开箱即用的管理工具,包括DSL指令、Metrics、Dashboard等。

 

“让湖仓不再成为互联网企业专宠”

 

根据Amoro团队介绍,Amoro 的愿景是依托于Apache Iceberg、Apache Paimon等新型数据湖表格式,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来以下价值:

 

降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极致瘦身,让湖仓不再成为互联网企业的专宠。通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变得简单和开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得更为便捷。

  

未来,Amoro社区将专注于以下方面:

 

打磨全托管Function的框架和能力,持续优化Built-in Function功能,突出数据自优化功能与对标方案上的性能和成本优势。以社区驱动的方式持续完善Paimon、Iceberg的对接能力,按需求对接新的Format。面向管理的各类DSL指令实现,帮助产品更好地集成。完善Metrics以及其他管理功能。

 

 

 

相关链接:

Amoro 贡献者列表:

https://github.com/NetEase/amoro/graphs/contributors

Amoro 2024 roadmap:

https://github.com/NetEase/amoro/issues/2534"