暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

结构化数据与非结构化数据的差异

大数据学习与分享 2022-04-15
2749
结构化和非结构化数据是数据的两大类。由于我们生活在一个信息时代,数据是我们日常生活中必不可少的东西,我们做的每一个决定都是基于这样或那样的数据。

下面我们将讨论结构化数据和非结构化数据以及它们之间的区别。

 


什么是结构化数据?


结构化数据是指按照预定义的模型结构化或以预定义的方式组织的数据。根据谷歌表示,“结构化数据是一种标准化的格式,用于提供关于页面的信息并对页面内容进行分类。”结构化查询语言(SQL)用于管理关系数据库中的结构化数据。这种语言最初被称为SEQUEL,是由IBM的Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期开发的。
 
用户只需对主题有基本的了解,就可以轻松地访问和解释结构化数据。例如,结构化数据的特定架构简化了机器学习(ML)算法的操作和查询。例如,在搜索引擎优化(SEO)中,结构化数据是帮助搜索引擎理解如何解释和显示内容的标记。
 
结构化数据通常存储在关系数据库管理系统(RDBMS)中。具有结构化数据的关系数据库的常见应用程序包括ATM活动、航空公司预订系统和销售事务。此外,保护结构化数据的方法很容易获得和理解。数据库提供了访问控制工具和技术来提高结构化数据的安全性。



什么是非结构化数据? 


非结构化数据指的是既没有按照预定义的数据模型进行结构化,也没有按照预定义的方式组织的数据。这种类型的数据可以是人生成的,也可以是机器生成的,并且具有内部结构。非结构化数据可能包括文档、书籍、元数据、健康记录、图像、音频、视频、文件、电子邮件消息、网页等。
 
有几种方法可以存放非结构化数据,比如数据湖、NOSQL数据库和数据仓库。
 
21世纪后期,大数据的出现使得人们对非结构化数据在根本原因分析和预测分析等领域的应用产生了浓厚的兴趣。《计算机世界》(Computerworld) 2011年的一份有先见之明的报告显示,到2021年,组织中90%以上的数据可能是非结构化的。事实上,IDC和希捷预测,到2025年,全球数据空间将增长到175.8 zettabytes,而2015年的增长率约为26%,这些数据中的大部分是非结构化数据。
 
根据2013年IEEE的一份报告,有几种方法可以存放非结构化数据,比如数据湖、NoSQL数据库(非关系型)和数据仓库。随着这一领域的增长,已经开发了许多工具和平台,特别是用于非结构化数据的使用、管理、存储和保护,例如Amazon DynamoDB、MonkeyLearn和MongoDB Atlas。



结构化数据与非结构化数据对比

 
结构化数据和非结构化数据都可以由人或机器生成,但它们之间有一些明显的区别。特别是,非结构化数据的不规则性和模糊行为使得使用传统程序难以理解。

 
随着现代技术的发展和发明,从非结构化数据中分析和获得新的见解变得越来越容易。将非结构化数据转换为结构化数据可以使其更容易、更有效地使用、管理、存储和保护。




什么是半结构化数据?

 

半结构化数据维护用于识别单独数据元素的内部标记和标签,从而实现信息分组和层次结构。文档和数据库都可以是半结构化的。这种类型的数据只代表结构化/半结构化/非结构化数据的5%-10%,但具有关键的业务用例。

 

电子邮件是半结构化数据类型的一个非常常见的例子。而更高级的分析工具对于线程跟踪,近似重复数据删除和概念搜索是必需的。电子邮件的本地元数据可以实现分类和关键字搜索,无需任何其他工具。

 

电子邮件是一个巨大的用例,但大多数半结构化的开发中心都在缓解数据传输问题。与基于Web的数据共享和传输一样,共享传感器数据也是一个不断增长的用例:电子数据交换(EDI),许多社交媒体平台,文档标记语言和NoSQL数据库。

 

标记语言XML这是一种半结构化的文档语言。XML是一组定义人机可读格式的文档编码规则(虽然说XML是人类可读的,但并没有带来太大的好处,因为人员阅读XML文档都会让他们更加耗费时间。)其价值在于它的标签驱动结构非常灵活,编码人员可以使其适应在Web上普及数据结构、存储和传输。

 

开放标准JSON(JavaScript Object Notation)是另一种半结构化数据交换格式。Java隐含在名称中,但其他类似C语言的编程语言可以识别它。其结构由名称/值对(或对象、散列表等)和有序值列表(或数组、序列、列表)组成。由于结构在各种语言之间可以互换,JSON擅长在Web应用程序和服务器之间传输数据。

 

NoSQL半结构化数据也是许多NoSQL(不仅是SQL)数据库的重要组成部分。NoSQL数据库与关系数据库不同,因为它们不会将组织(模式)与数据分开。这使得NoSQL成为存储不容易适应记录和表格格式的信息(比如长度不同的文本)的更好选择。它还允许数据库之间进行更容易的数据交换。一些较新的NoSQL数据库(如MongoDB和Couchbase)也通过将它们以JSON格式本地存储来包含半结构化文档。

 

在大数据环境中,NoSQL不需要管理员将运营和分析数据库分离为单独的部署。NoSQL是可操作的数据库,并托管用于商业智能的本地分析工具。在Hadoop环境中,NoSQL数据库摄取并管理传入数据并提供分析结果。

 

这些数据库在大数据基础架构和LinkedIn等实时Web应用程序中很常见。在LinkedIn网站上,数以亿计的商业用户可以自由分享职位、地点、技能等等。LinkedIn以半结构化格式捕捉海量数据。当求职用户创建搜索时,LinkedIn会将查询与其大规模的半结构化数据存储相匹配,将数据交叉引用到招聘趋势中,并与求职者分享结果推荐。Salesforce等高级LinkedIn服务中的销售和营销查询也采用相同的流程。亚马逊还将读者推荐建立在半结构化数据库上。


推荐文章:关于一些技术点的随笔记录

文章转载自大数据学习与分享,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论