开个新坑,本系列文章将为您介绍,什么是向量数据库,为什么需要一个专用的向量数据库,向量数据
库的底层架构原理有哪些?都涉及哪些算法?感兴趣的小伙伴多多留言点赞,如果对这方面的内容已经
有了一定了解,也可以体验一下星环科技推出的向量数据库社区版:Hippo社区版下载及安装资源
背景--向量数据的产生
伴随互联网、移动互联网、物联网、5G等信息通信技术及产业的发展,全球数据量呈现爆发式增长的趋
势。从智能设备收集的物联网 (IoT) 数据,到Web 应用程序或移动应用程序生成的用户行为数据,再到
上传到社交媒体的视频,数据的生成速度呈指数级增长。根据International Data Corporation(IDC)
数据显示,到2028 年,全球数据圈(global datasphere)(一种用于衡量全球永久性存储中创建、采
集和存储的新数据总量的指标)预计将增长到 400 ZB(泽字节)(1 ZB = 1021 字节)。 届时,30%以
上的数据将是实时生成的,而所有生成的数据中,80%将是非结构化数据。
什么非是结构化数据?
非结构化数据指的是无法以预定义格式存储或适合现有数据模型的数据,比如图像、视频、音频、用户
行为等等。除了这些之外也有一些没那么常见的非结构化数据,比如蛋白质分子结构。这些数据不像结
构化数据,无法定义为行和列的关系,尽管可以通过以标签的形式来标记这些数据,但是如果涉及图像
或者是涉及上下文的语义搜索,则无法简单的通过打标签的形式来进行管理。
非结构化数据示例
非结构化数据可以由机器或人类生成。机器生成的非结构化数据的示例包括:
传感器数据:从传感器收集的数据,例如温度传感器、湿度传感器、GPS 传感器和运动传感器;
机器日志数据:机器、设备或应用程序产生的数据,包括系统日志、应用程序日志和事件日志;
物联网 (IoT) 数据:从智能恒温器、智能家居助理和可穿戴设备等智能设备收集的数据;
计算机视觉数据:这是由计算机视觉技术生成的非结构化数据,例如图像识别、对象检测和视频分
析生成的非结构化数据;
自然语言处理 (NLP) 数据:由 NLP 技术生成的数据,例如语音识别、语言翻译和情感分析;
Web和应用程序数据:Web服务器、Web应用程序和移动应用程序生成的数据,包括用户行为数
据、错误日志和应用程序性能数据;
人类生成的非结构化数据的示例包括:
电子邮件:电子邮件通常是非结构化的,可以包含自由格式的文本、图像和附件;
短信:短信可以是非正式的、非结构化的,比如包含缩写或表情符号等等;
社交媒体:社交媒体内容的结构和内容可能有所不同,包括文本、图像、视频和主题标签;
录音:人类生成的录音可以包括电话、语音邮件、音频文件和音频笔记,这些都是非结构化数据;
手写笔记:手写笔记可以是非结构化的,包含绘图、图表和其他视觉元素;
会议记录:会议记录可以包含非结构化文本、图表和操作项;
文字记录:演讲、采访和会议的文字记录可以包含不同程度准确度的非结构化文本;
用户生成的内容:网站和论坛上的用户生成的内容可以是非结构化数据,包括自由格式的文本、图
像和视频文件;
与结构化/半结构化数据不同,非结构化数据的大小、格式各不相同,涉及截然不同的特征及索引。
以图像为例,如果对一样物品连续拍了三张照片,尽管这三张照片都是同一样物品在同一环境中拍摄
的,但是他们的像素值、分辨率、文件大小、拍摄时间等等可能大不相同。
再比如说以狗狗为例,对于我们人类来说区分狗狗会比较容易,因为我们可以多角度的去观察去了解它
们不同的特征。但是如果想要通过数据去表述,则需要增加更多维度的信息辅助分析,比如他们的体
型、毛发的长短、鼻子的长短、服从性,攻击性等等。
非结构化数据真正有意义的地方不在于数据本身的物理表示,而在于他背后隐藏的语义特征。
因此,这对需要应用此类数据的公司及相关行业提出了新的挑战:我们应该如何以类似于结构化/半结构
化数据的方式来转换、存储和搜索此类非结构化数据?如果非结构化数据没有固定的大小和格式,我们
应该如何搜索和分析它?
答案是:利用机器学习(或者更具体地说,深度学习)模型的嵌入功能来将真实世界数字化的抽象出
来。
相关文档
评论