【AntDB分布式数据库的发展展望】分布式数据库的热点技术 - 库内机器学习

北陌 2023-06-15

168

2018 年英国《经济学人》杂志将数据称为“21 世纪的石油”，分布式数据库中存储了海量数据，客户都希望在数据中挖掘更多有价值的信息，这就涉及机器学习，在 Hadoop 生态圈常用的做法是借助 Spark/Flink 计算引擎，但是用 Spark/Flink 访问数据库非常不方便，数据从数据库加载到 Spark/Flink 再做计算影响性能且对内存容量要求较高，所以数据库内部机器学习就成了数据库专家重点突破的对象。

2009 年 MAD Skills 在 VLDB 的发表和 2011 年 MADlib 项目的诞生可以说是库内机器学习的里程碑。MADlib 是由 Pivotal Greenplum DB 团队和高校联合研发的，参与的大学包括伯克利大学加州分校、斯坦福大学、威斯康星麦迪逊大学、佛罗里达大学。2017 年 MADlib 正式上线运行成为 Apache 顶级项目。

MADlib 支持在 PostgreSQL 和 Greenplum 数据库内机器学习，提供了丰富的分析模型，包括回归分析、决策树、随机森林、贝叶斯分类、向量机、风险模型、KMEAN 聚集、文本挖掘、数据校验、图计算等，新版的 MADlib 甚至还包含Keras 和 TensorFlow 框架。

MADlib 的成功说明数据库内分析是一个必然的发展趋势，因为 SQL 是被实践证明的数据处理第一语言，AntDB 的并行计算框架和 Greenplum 差不多也采用 scatter/gather 机制，所以 MADlib 只需做少量修改即可用于 AntDB 实现分布式数据库内机器学习和深度学习。