暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【AntDB分布式数据库的发展展望】分布式数据库的热点技术 - 库内机器学习

北陌 2023-06-15
168

2018 年英国《经济学人》杂志将数据称为21 世纪的石油,分布式数据库中存储了海量数据,客户都希望在数据中挖掘更多有价值的信息,这就涉及机器学习,在 Hadoop 生态圈常用的做法是借助 Spark/Flink 计算引擎,但是 Spark/Flink 访问数据库非常不方便,数据从数据库加载到 Spark/Flink 再做计算影响性能且对内存容量要求较高,所以数据库内部机器学习就成了数据库专家重点突破的对象。

2009 年 MAD Skills 在 VLDB 的发表和 2011 年 MADlib 项目的诞生可以说是库内机器学习的里程碑。MADlib 是由 Pivotal Greenplum DB 团队和高校联合研发的,参与的大学包括伯克利大学加州分校、斯坦福大学、威斯康星麦迪逊大学、佛罗里达大学。2017 年 MADlib 正式上线运行成为 Apache 顶级项目。

MADlib 支持在 PostgreSQL 和 Greenplum 数据库内机器学习,提供了丰富的分析模型,包括回归分析、决策树、随机森林、贝叶斯分类、向量机、风险模型、KMEAN 聚集、文本挖掘、数据校验、图计算等,新版的 MADlib 甚至还包含Keras 和 TensorFlow 框架。

MADlib 的成功说明数据库内分析是一个必然的发展趋势,因为 SQL 是被实践证明的数据处理第一语言,AntDB 的并行计算框架和 Greenplum 差不多也采用 scatter/gather 机制,所以 MADlib 只需做少量修改即可用于 AntDB 实现分布式数据库内机器学习和深度学习。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论