2018 年英国《经济学人》杂志将数据称为“21 世纪的石油”,分布式数据库中存储了海量数据,客户都希望在数据中挖掘更多有价值的信息,这就涉及机器学习,在 Hadoop 生态圈常用的做法是借助 Spark/Flink 计算引擎,但是用 Spark/Flink 访问数据库非常不方便,数据从数据库加载到 Spark/Flink 再做计算影响性能且对内存容量要求较高,所以数据库内部机器学习就成了数据库专家重点突破的对象。
2009 年 MAD Skills 在 VLDB 的发表和 2011 年 MADlib 项目的诞生可以说是库内机器学习的里程碑。MADlib 是由 Pivotal Greenplum DB 团队和高校联合研发的,参与的大学包括伯克利大学加州分校、斯坦福大学、威斯康星麦迪逊大学、佛罗里达大学。2017 年 MADlib 正式上线运行成为 Apache 顶级项目。
MADlib 支持在 PostgreSQL 和 Greenplum 数据库内机器学习,提供了丰富的分析模型,包括回归分析、决策树、随机森林、贝叶斯分类、向量机、风险模型、KMEAN 聚集、文本挖掘、数据校验、图计算等,新版的 MADlib 甚至还包含Keras 和 TensorFlow 框架。
MADlib 的成功说明数据库内分析是一个必然的发展趋势,因为 SQL 是被实践证明的数据处理第一语言,AntDB 的并行计算框架和 Greenplum 差不多也采用 scatter/gather 机制,所以 MADlib 只需做少量修改即可用于 AntDB 实现分布式数据库内机器学习和深度学习。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
2025年4月中国数据库流行度排行榜:OB高分复登顶,崖山稳驭撼十强
墨天轮编辑部
1872次阅读
2025-04-09 15:33:27
2025年3月国产数据库大事记
墨天轮编辑部
868次阅读
2025-04-03 15:21:16
2025年3月国产数据库中标情况一览:TDSQL大单622万、GaussDB大单581万……
通讯员
604次阅读
2025-04-10 15:35:48
征文大赛 |「码」上数据库—— KWDB 2025 创作者计划启动
KaiwuDB
497次阅读
2025-04-01 20:42:12
数据库,没有关税却有壁垒
多明戈教你玩狼人杀
486次阅读
2025-04-11 09:38:42
国产数据库需要扩大场景覆盖面才能在竞争中更有优势
白鳝的洞穴
464次阅读
2025-04-14 09:40:20
最近我为什么不写评论国产数据库的文章了
白鳝的洞穴
405次阅读
2025-04-07 09:44:54
天津市政府数据库框采结果公布!
通讯员
359次阅读
2025-04-10 12:32:35
【活动】分享你的压箱底干货文档,三篇解锁进阶奖励!
墨天轮编辑部
356次阅读
2025-04-17 17:02:24
优炫数据库成功入围新疆维吾尔自治区行政事业单位数据库2025年框架协议采购!
优炫软件
336次阅读
2025-04-18 10:01:22