作者
digoal
日期
2017-10-27
标签
PostgreSQL , Greenplum , 情感词分析 , plpython , plR , madlib , smlar , 特征向量 , 社会和谐 , 阿里云HybridDB for PostgreSQL , import package
背景
madlib机器学习SQL函数库
http://madlib.apache.org/
海量Python机器学习库
madlib python库 - pymadlib
https://pypi.python.org/pypi/pymadlib
http://pivotalsoftware.github.io/pymadlib/
海量R机器学习库
madlib R库 - pivotalR
https://github.com/pivotalsoftware/PivotalR
https://pivotalsoftware.github.io/gp-r/
文本挖掘并行计算
HybridDB for PG 支持文本挖掘
1、内置python
import library
plpython
https://www.postgresql.org/docs/current/static/plpython.html
2、内置R
https://github.com/postgres-plr/plr
3、内置java
https://github.com/tada/pljava
3、外置R、Python、Java
流式规则计算
UDF + trigger
情感词分析与回流
海明码
smlar
高效检索相似文本
《海量数据,海明(simhash)距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践》
架构
数据源 -> GPDB (情感词挖掘, 生成词库, madlib, python, R), 人群透视, 贴情感标签 -> (词库,标签) RDS PG (海明码, 相似查询)
数据源 -> RDS PG (实时规则清洗, python清洗) -> 预警
PostgreSQL 许愿链接
您的愿望将传达给PG kernel hacker、数据库厂商等, 帮助提高数据库产品质量和功能, 说不定下一个PG版本就有您提出的功能点. 针对非常好的提议,奖励限量版PG文化衫、纪念品、贴纸、PG热门书籍等,奖品丰富,快来许愿。开不开森.