当前社会,说“数据就是金钱”是一点都不为过的。
在我们向一个基于app的世界改变时,数据发作了指数级的增长。然而,那些数据大部门都是松懈的,长短构造化的,为了把它们提炼并构建为一种易懂和易用的形式,数据发掘应运而生。如今我们能够看到许多利用人工智能,机器学习等提取数据的手段来进行数据发掘的工具。
那里特意列举了六种强大的开源数据挖掘工具:
1.RapidMiner(以前叫YALE)
RapidMiner是以java开发的,通过其基于模板的框架来供给高级数据阐发,益处是:用户几乎不需要写任何代码。它不是一个本地化软件,而是做为一种服务提供,如今占据着数据发掘工具排行榜的首位。
除了数据发掘,RapidMiner还供给了其他功用,如:数据预处置和可视化、预测阐发和统计建模、评估和摆设。此外,它还能集成基于WEKA和R scripts的学习计划、模子和算法,以此来满足你更高级的需求。
RapidMiner是基于AGPL协议(能够认为是GPL协议的进阶协议)的,它在SourceForge被认为是更好的数据挖掘软件,同时你也能够在SourceForge下载它。
2.WEKA
WEKA基于java开发的,专门用于农业范畴的数据开发。跟着WEKA的java版本的发布,WEKA变得愈加多面手,许多为数据开发和预测建模供给可视化和算法的应用场景用到它。WEKA是基于GNU的自在软件,同RapidMiner比拟,那是它的一大亮点,因为用户能够按照本身的意愿来随意定制。
WEKA撑持多种数据发掘的典范使命,包罗数据预处置、集群、分类、回归、虚拟化和功用选择。
WEKA的现有版本还没有内置sequence modeling(序列建模),加上它WEKA会变得愈加功用强大。
3.R-Programming
R Project的核心是用C和Fortran写的,但大部门的模块都是利用R自己开发的。它免费供给了统计计算和统计造图的语言和软件情况。R语言被普遍用于数据阐发和统计软件开发时的数据发掘,易用性和扩展性培养了R的脱颖而出。
除了数据挖掘,R还供给了数据统计和图形功能,包罗:线性和非线性建模,典范统计测试,时间序列,分类、集群等等。
4.Orange
若是你是一个Python开发者,利用Orange绝对没错。Orange是绑定Python停止开发的开源工具,不管你是新手仍是专家,Orange 都能满足你的需求。
Orange的可视化编程和Python脚本,会让你一利用就彻底的爱上它。Orange是基于组件的东西,包罗了关于机器学习,生物信息和文本挖掘方面等的组件,涵盖了数据开发的许多方面。
5.KNIME
KNIME在数据预处置的三个次要组件(提取,转换和加载)都表示超卓。它供给了一个开源的数据阐发、陈述和集成平台,让用户以可视化的体例处置数据,有选择的运行一些或全数的阐发步调。KNIME提出了一种模块化数据流水线的概念,通过那种概念它集成了多种机器进修和数据发掘方面的组件,并且已经在商业智能和金融数据开发方面有所建树。
KNIME是基于eclipse开发的java项目,十分容易扩展和作为插件被集成。大量的数据集成模块已经跟着核心版本同时发布了。
6.NLTK
谈到语言处置使命,没有比NLTK更牛的了。NLTK供给了包罗数据挖掘,机器进修,数据抓取,感情阐发及其他语言处置使命的一揽子东西。你需要做的仅仅是安装NLTK,下载使命相关包罢了。因为它是用Python写的,所以你要基于此来定制使用和构建应用。