小象授权转载
大数据的工具成千上万,每种都承诺可以为用户节省时间、节省金钱,并赋予用户前所未有的商业洞察力。这些说法也许属实,不过鉴于选择众多,想要一一看过所有的可能还是颇为麻烦的。到底哪种才适合你的技能组、适合你的项目呢?
为了节省时间,尽快找到最合适的工具,我们列出了一些最好用的工具,其功能涉及数据析取、存储、清洗、挖掘、可视化呈现、分析还有整合。

想要使用大数据,必得考虑如何存储的问题。大数据获名“大”的部分原因在于,对传统机制来说大数据处理起来太过复杂。一个良好的数据存储提供商应当提供这样的基础设施:可以存储查询数据,兼运行其他分析工具。

Hadoop这个名字已经等同于大数据了。这是一个在计算机集群上进行大型数据集的分布式存储的开源软件框架——意味着用户可以自由扩展或缩小数据,而无需担心硬件故障。Hadoop提供了存储大量任意类型数据的能力,巨大的处理能力还有处理几乎无限的并发任务或工作的能力。
但它不适合数据初学者,想要真正使用它的力量,必须了解Java,这可能需要一些努力,不过Hadoop确实值得这种付出——许多其他公司和技术都用它来运行或集成。
入门:Cloudera有一些很棒的Hadoop训练课程。
Cloudera实际上是Hadoop还有一些附加服务的品牌名称,它可以帮助公司打造企业数据中心,让公司员工更好地访问存储的数据。
尽管确实包含开源元素,Cloudera主要仍是协助企业管理Hadoop生态系统的企业解决方案,基本上解决了Hadoop管理中的许多困难工作,还提供一定的数据安全性,如果存储数据比较敏感或是私人数据的话,这一点非常重要。
入门:Cloudera有大量不同类型用途的网络讲座可以观看。
MongoDB是现代化的初级数据库管理方式,可以将其当作关系数据库的替代品,它非常适合用来管理频繁变化的数据,或者非结构化/半结构化数据。
常见用例包括移动应用的数据存储、产品目录管理、实时个性化技术、内容管理与跨系统提供单一视图的应用程序支持。不过MongoDB仍然不是网络新手所能驾驭的。正如任何数据库一样,使用者需要掌握使用编程语言查询的能力。
入门:MongoDB有自己的网络大学课程,可从中学习如何使用相关服务,甚至取得证书。
Talend是另一家优秀的开源集成公司,提供大量数据方面的产品。本文中我们将着眼于其开发的主数据管理(MDM)服务。MDM结合了实时数据、应用还有集成有嵌入式数据质量与管理工作的流程。
由于是开源的,Talend提供的服务完全免费,无论什么阶段的企业都很适用。使用它可以节省企业自行构建与维护数据管理系统的时间——这项工作的确非常复杂而困难。
入门:Talend有一整套入门教程。
如果你是大数据方面彻彻底底的新手,也许数据库并非最好的入门方向。它们相对比较复杂,而且确实需要一定的编程知识才能运行(不像下面提到的很多其他工具那样)。
但如果你的确想要涉足大数据的工作,那么了解数据库的基础知识,并能就其侃侃而谈都是必须的。一般汇编课程(General Assembly Class)正是开始学习的好地方,从中可以对大数据技术有全面了解:包括数据库与存储的历史,关系数据库与文档数据库的区别,大数据的挑战还有所需工具,以及Hadoop的介绍。
在挖掘数据进行预测前,需要先进行数据清洗。尽管构建干净、结构良好的数据集很不错,但不会总有这样的好事。数据集可能有各种形状和规模(有些不错,有些却不尽如人意),尤其是从网络收集到的数据集更是如此。下列这些可以帮助你将数据改进/改造成可用数据集。
OpenRefine(也称GoogleRefine)是一个开源工具,专注于清洗混乱的数据,对付起大型数据集,甚至有非结构化倾向的数据也游刃有余。
就数据软件而言,OpenRefine的体验非常友好。不过,使用者如果对数据清洗原则掌握良好,必定有所好处。OpenRefine的好处之一在于,它拥有多名贡献者组成的大型社区,这意味着该软件会不断进步。而且如果遇到困难,也可以在社区询问,能获得很有帮助、极其耐心的回答。在OpenRefine的wiki上还能找到Github库。
入门:官网主页上有一些视频教程与OpenRefine的书籍。
DataCleaner认可数据操作是一项漫长耗时的任务。数据可视化工具只能读取结构化良好的“干净”数据集。DataCleaner代理了那部分繁重的工作,将杂乱的半结构化数据集转化为干净可读的数据集,方便可视化公司读取。
DataCleaner还提供了数据存储与数据管理服务。有30天的免费试用期,之后按月付费。
入门:DataCleaner有一整套文档与视频,收费客户还能获得面对面的训练或者网络教程。
不要将之与数据析取(稍候介绍)相混淆,数据挖掘是在数据库中找到insight的过程,而数据析取则是从网页中提取数据输入数据库的过程。数据挖掘的目标在于通过手边的数据进行预测与决策。
RapidMiner在预测性分析方面卓有成效,其客户包括PayPal,Deloitte,eBay还有Cisco。它非常强大、易用并有很好的开源社区支持,甚至支持通过API集成自己的专用算法。
其图形界面(让人想起Yahoo Pipes)让用户在使用它的四个分析产品时无需编程知识或者PhD学位。
IBM SPSS Modeler提供了一整套数据挖掘专用的解决方案,包括文本分析、实体分析、决策管理与优化。他们的五个产品提供了一系列高级算法与技术,包括文本分析、实体分析、决策管理与优化。
SPSS Modeler是非常适用大型公司需求的重型解决方案,几乎能运行在任意类型的数据库上,并能与诸如SPSS协作与部署服务,SPSS分析服务器之类的其他IBM SPSS产品集成。
入门:IBM产品最重要的就是支持文档。
数据挖掘方面的另一个大拿就是Oracle。Oracle的数据挖掘是高级分析数据库的一部分可选方案,使用它可以对insight进行探索,进行预测并使用他们的Oracle数据。用户可以通过构建模型来发现用户行为,找到最佳目标用户,并建立侧写。
Oracle数据挖掘GUI让数据分析师、商业分析师还有数据科学家得以通过相当精致的界面、轻松的拖拽解决方案在数据库中进行数据相关的工作。用户还能使用它来创建SQL与PL/SQL脚本,在企业内部实施自动化运行、调度与部署工作。
入门:所有需要的资源都能在官方支持页面找到。
Teradata认可这一事实:尽管大数据很棒,如果欠缺分析与使用的手段,还是毫无用处的。想象一下如果有数以亿万的数据点,却没有查询技术会怎样。这就是Teradata大展拳脚的地方。他们提供数据存储、大数据以及分析方面的点对点解决方案与服务,还有市场推广应用。这意味着使用者可以完全进化成为一家数据驱动型的企业了。
Teradata还提供大量包括实施、商业咨询、训练与支持在内的服务。
如果想要对特定类型的数据进行挖掘,有很多创业公司是专注于协助企业回答数据方面难题的。如果是用户流失方面的问题,我们推荐FramedData,这是一家创业公司,通过分析客户公司的分析报告,告知客户哪些用户正考虑放弃使用其产品。
这是完全托管的解决方案,也就是说用户什么都不用做,只要坐下等着预测结果就好了。
入门:如果有兴趣,最好申请一份demo。
如果被数据挖掘的问题困住,或者想要解决世界上最困难的问题,就找Kaggle吧,这是世界上最大的数据科学社区。公司与研究者在上面发布自己的数据,而全世界的统计学家还有数据挖掘者竞相给出最佳模型。
数据挖掘是通过筛选数据找出之前不为人知的模式,而数据分析指的是将数据分解后评估这些模式在一段时间后的影响。分析是在数据中询问具体问题并找出答案,甚至可以询问未来会发生什么事这样的问题。
Qubole使得对存储在AWS、谷歌或者Azure云上的数据进行分析的过程更为简单、速度更快且更有扩展性。它将这部分工作从基础架构中挪出来。一旦IT政策到位,所有数据分析师都能被解放出来,通过Hive、Spark、Presto还有越来越多的其他数据处理引擎来协作完成“点击查询”的工作。
Qubole是企业级的解决方案。
入门:Qubole的资源网页有更多信息。
BigML正尝试简化机器学习。他们提供强大的机器学习服务和易用的界面,使用者可以很简便地输入数据、得出预测。他们的模型也用在预测性分析上。
如果想要从BigML尽可能获益,对模型的深入理解显然很有帮助,不过并非必须。免费版本允许使用者创建小于16MB的任务,还有付费版本与符合企业级需求的私有云服务。
入门:从这四个系列视频中可以了解BigML的工作方式。
Statwing将数据分析带到新阶段,它提供了从美观的视觉效果到复杂的分析所有一切,在NFL data上还有一篇超酷的博文。Statwing非常简单,用不了5分钟就能入手。
尽管不提供免费版,价格也很合适。基础套餐月费50美元,随时可取消订购。可以不限量使用数据集,单个数据集大小不超过50MB。其他付费选项可以上传的数据集更大。
入门:其主页有很多超酷的视频教程。
数据可视化公司将你的数据带入现实生活。对于数据科学家来说,部分挑战来自于将从数据中得到的观点转述给公司的其他员工。在与大多数同事的沟通中,MySQL数据库还有电子表格是解决不了问题的,可视化才是转述复杂数据观点的康庄大道。最棒的是这类工具大多无需代码编写。
Tableau是一个主要专注于企业智能的数据可视化工具。无需任何编程就能创建示意图、条形图、散布图等等。近期他们还发布了一个网络连接器,允许用户连接数据库或API,将实时数据进行可视化呈现。
Tableau有五个可用产品,有不同程度的支持和功能。如果对vizzing比较陌生,推荐Tableau Public,这是他们可视化工具的免费版本。使用这个工具就应该可以了解该付费购买其他哪个Tableau产品了。
入门:Tableau有很多功能,所以肯定得在深入之前看看教程。
作为数据可视化与分析工具,Silk较之Tableau更为简单。用户只需点击几下鼠标,即可通过构建互动示意图与图表将数据引入,还允许任意数量的人参与可视化的协作。
就像列表中的很多可视化公司那样,Silk无需专业编程人员操作。Silk很适合可视化数据的初学者,其最新功能正尝试将数据自动可视化,而不再依赖人工操作。
入门:Silk官网上有巨量教程。
CartoDB是专为地图制作所设计的数据可视化工具。使用它将位置数据可视化轻而易举,无需额外代码。CartoDB可以管理大量的数据文件与类型,甚至还有范例数据集,方便用户熟悉工具。
对于位置数据的处理问题,CartoDB显然值得一试。它可能不是最易用的系统,不过一旦熟悉了,就会强大无比。官方提供了企业版,支持协作项目与受控访问。
入门:有浩瀚的官方文档库,让你成为地图专家。
Chartio允许用户合并多个数据来源,并支持在浏览器中执行查询。只需几下点击即可创建一个强大的控制面板。Chartio的可视化查询语言允许任何人从任意地方抓取数据,而无需了解SQL或其他复杂的模型语言。还可以输出PDF报告,可以将控制面板以PDF格式输出并邮寄给任何人。
Chartio还有一个很酷的地方——通常无需数据存储。也就是说启动和运行速度更快,实施成本却更低,更容易预测。
入门:查看Chartio入门教程。
如果想要构建图表,Plot.ly正是你的选择。这个平台非常便于创建令人惊叹的2D和3D图表(真是必须亲眼看到才能相信),此外也无需编程知识。
免费版本允许使用者创建一张私人图表与不限数量的公共图表,升级到企业版之后可以绘制不限数量的私人与公共图表,并允许输出向量、保存自定义主题。
入门:在Plotly的各种教程中能找到所有需要的资料。
最后一个可视化工具是Datawrapper,它是一个开源工具,可以在数分钟之内创建可嵌入图表。开源背景会让它不断得以发展。还有个很棒的chart gallery,可以从中找到使用Datawrapper的其他人。
与这个领域的很多其他公司相似,该公司包含免费版与付费版,付费版是预设、定制的Datawrapper包。
入门:查看Datawrapper教程开始入门。
数据集成平台是各个项目之间的粘合剂,如果想要将用Import.io提取的数据连接到Twitter的话,或者想要在Facebook上分享用Tableau/Silk自动绘制的可视化效果,那么下面的集成服务正是你需要的工具。
Blockspring非常独特,它将一切类似IFTTT和Zapier之类的服务与Excel、Google Sheets之类我们熟悉的平台相连。只用简单编写一个Google sheet公式,就能与一大堆的第三方程序相连。从电子表格发Tweet,查看粉丝,并与AWS、Import.io和Tableau连接,找出其中一些的名字。
Blockspring是免费的,但也有一个公司版,允许使用者创建与共享私有函数,添加自定义标记以方便搜索,即时为整个公司设置API token。
入门:Blockspring有一些帮助文档很有用,方便使用者设立与运行。
Pentaho提供了无需编码的大数据集成方式,通过极简编程,使用简单的UI拖拽就能集成大量工具,还提供嵌入式分析与业务分析服务。
Pentaho是企业的解决方案。可以索要数据集成产品的免费限时试用版。
有些时候在数据工作中仅仅一个工具是不够用的,尽管如今的工具越来越强大、越易用,有些时候自己编程还是更好一些。甚至对于非程序员来说,理解这些语言的基础运作方式也能协助更进一步了解这些工具的功能有多少,怎样使用才是最好的。
R语言是用于统计计算和绘图的语言。如果上面列出的数据挖掘和统计软件不能满足你的需求,学习R语言是个好办法。事实上,如果打算成为数据科学家,了解R语言是必须的。
它运行在Linux、Windows还有MacOS上。另有一个巨大的使用R语言的统计学家社区,而R语言的普及率还在上涨。
另一种在数据社区逐渐流行起来的语言是Python。它创建于1980年代,得名于电视剧《蒙提·派森的飞行马戏团》,并在世界10大流行语言中一直占有一席之位。很多记者在无法使用数据采集工具获得想要的数据时,都会使用Python来编写自定义爬虫。
人们喜欢它是因为它与英语很相似。它使用“if”和“in”这样的单词,也就是说以Python写就的脚本很易读。它还提供了为不同类型任务所设计的一大堆库。
入门:查看官网主页了解更多。
正则表达式(RegEx)是一组可以操纵和改变数据的字符。主要用于以字符串进行模式匹配或字符串匹配。在Import.io中,可以使用RegEx在提取数据的时候删除部分字符串,或者保留特定的字符串。
这个工具在数据析取方面有着难以置信的效果,使用者可以在提取数据时获得恰好想要的那些,这意味着无需再依赖上述所有的数据操作公司。
入门:关于RegEx网上有很多超酷的教程。
XPath是一种查询语言,用于从XML文档中选择特定节点。RegEx操作与修改数据组成,而XPath为RegEx提取原始数据储备。
XPath在数据析取方面最为常用。Import.io实际上会在每次使用者点击每一条数据时自动创建XPath,只是看不到而已。还可以插入自己的XPath,从下拉菜单、网页标签中获取数据。简单来说,XPath就是路径,一组指向网页HTML中特定部分的方向。
入门:最好的XPath教程是w3schools教程。

在能够存储、分析数据或将其可视化之前,需要获得一些数据。数据析取是从非结构化的数据(比如网页)中提取并将之转化为结构化表格。一旦数据变得结构化,就可以用各种方法进行处理,通过我们上述的工具来找出insight。
Import.io是数据析取的首要工具,使用非常简单的UI就能将网页转化为可用于分析、可视化呈现的表格,并用于数据驱动决策。
Import.io即是一个免费使用的工具,也是一个数据提供商。我们为每个客户端定制数据集。这些数据可以根据预定的含义进行刷新,公司也将获得最新的数据。
入门:查看知识库学习如何使用,或者联系数据专家获得定义数据解决方案。
转自:小象
译者:孙薇
原文链接:http://blog.import.io/post/all-the-best-big-data-tools-and-how-to-use-them





