暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片
快速了解搜索引擎Scope.pdf
43
6页
0次
2024-08-16
10墨值下载
什么是搜索引擎数据库
搜索引擎数据库是一类专门用于数据内容搜索的NoSQL数据库,是非结构化大数据处理分析领域中重要
的基础支撑软件。
伴随互联网、移动互联网、物联网、5G等信息通信技术及产业的发展,全球数据量呈现爆发式增长的趋
势。根据IDC数据显示,到2028 年,全球数据圈(global datasphere)预计将增长到 400 ZB,非结构
化数据成为全球数据量的主要来源。
非结构化数据指的是无法以预定义格式存储或适合现有数据模型的数据,比如图像、视频、音频、用户
行为等等。数据结构复杂,不方便用传统的数据库二维逻辑来表现,但其中却蕴含着丰富的数据价值,
因此如何高效地处理分析非结构化数据是数据库领域面临的机遇和挑战。
在这样的时代背景下,搜索引擎数据库逐渐被人们所熟知,它可以使用索引对数据中的相似特征进行归
类,提供快速准确的数据检索服务。通过对索引和检索过程的优化,可以处理大量文本、半结构化或非
结构化的数据。
搜索引擎数据库的应用十分广泛。
诞生的初期,搜索引擎数据库主要是为了解决关系型数据库中长文本检索效率低下的问题,所以又称为
全文数据库、非结构化数据库等等。随着技术的发展,目前衍生出了多种处理不同类型来源数据的检索
引擎并集成在不同的数据库中。例如除了长文本数据、常见的数值、日期之外,还可以处理各种各样的
非结构化数据,例如 IP、地理位置信息、图片、音视频等等。
凭借在数据查询效率方面的优势,搜索引擎数据库在数据处理方面的地位越来越高,并在应用程序搜
索、网站搜索、企业搜索、智能问答、图像与语音搜索、语义搜索、业务分析和安全分析等方面有着广
泛的应用。
更多搜索引擎数据库的背景介绍以及所涉及的技术点剖析可点击下方对应链接进行查看:
搜索引擎数据库介绍
搜索引擎相关技术点:全文检索、倒排索引、分片
Scope是什么
Scope是星环自研的搜索软件,除了保留底层的lucene框架和工具层外,上层进行了全自主研发改造,
扬弃了开源产品中的那些带来瓶颈和限制的模型,用更贴合海量数据大集群场景的模型来代替,打造出
了自主可控的搜索引擎产品。
适用场景
文档数据库
存储半结构化、非结构化数据
功能和性能均优于Mongodb
日志分析与监控
统计和日志类时间序列数据的存储和分析
舆情分析
高聚合率的统计分析,如:热词跟踪
搜索引擎
多条件模糊查询
不指定列的全文搜索
为什么选择Scope?
技术栈全面可控,数据安全有保障
一直以来,我国的上游核心技术频繁的遭遇卡脖子,严重影响了我国关键科技和产业的发展。在过去
几年内, Elasticsearch 数据泄露事件频发,安全风险加剧。数据泄露事件频发给国内各行业用户敲响了
数据安全的警钟。同时,ES2021年更改了其开源协议,对其产品的许可协议增加了限制,也带来了更
多的商业风险。
因此,自主可控和国产化替代迫在眉睫。
在这个体系和背景下,全链路的打通,软硬件的结合都是重要的环节。搜索产品作为一款软件,也要在
国产化适配以及兼容性上都要做到更好。
Scope可以满足各类硬件环境需求以及信创需求,对国内主流服务器架构以及操作系统深度适配,并且
支持混合架构部署,允许不同配置、不同架构、不同操作系统的机器在同⼀集群中部署和使用,充分利
用集群资源。
除此之外,Scope还为用户提供了企业级安全保障,从以下3个维度全方位保护用户数据的安全:
用户认证,我们基于SASL提供plainGSSAPI的认证方式;
数据传输加密:我们支持基于SSL/TLS的加密方式;
而在用户权限上,我们同样提供表/索引级别的权限控制。确保您的集群可以放心大胆的使用。
国产化高效替代,性能服务双保障
Scope提供PB级海量数据的交互式多维检索分析服务,单实例可突破至百TB的数据存储,是
Elasticsearch 5 倍以上,大大降低用户硬件成本。数据批量写入速度相对 Elasticsearch 提升 40%
相对于Elasticsearch Scope 具有很强的容灾和数据恢复能力,重启恢复时间在 TB 级数据量下控制在
分钟级,不到Elasticsearch 1/10
除此之外,在满足了用户各类检索需求(日志检索、全文检索等)的同时也提供了更好的产品服务。
架构优化
为实现更好的集群稳定性,Scope在分布式层对原有架构进行重构,将共识算法传统的流言传播模式
goosip转变为Raft的架构。通过架构的优化,数据的同步逻辑也从过去的最终一致性转变为强一致性。
从下图可以看出两类算法的差异。
原有goosip架构更偏向于主节点数据写入完成后,返回请求成功的响应,然后在内部做数据同步,最终
达到所有节点数据一致的情况,即最终一致性。在该模型下,对于常规的日志等低价值信息比较友好,
若存储高价值或不允许丢失的信息,将存在一定风险。例如,当集群中node1节点与集群网络连接断
开,其他节点会重新组成集群,选举主节点。但是若node1节点数据并未及时同步,客户层面感知将会
是数据丢失,因为其新写入数据在未同步的节点中不存在。同时,当node1恢复连接后加入集群,会因
其不是主节点而反向同步其他节点,最终数据彻底丢失。
Scope选择升级Raft架构作为一致性协议,其对于数据同步、写入成功等请求,是在多数节点写入后返
回。即使集群中某一节点出现上述失联问题,数据依旧可以被检索到,杜绝数据完全丢失。对于Scope
的管理节点,同样采用Raft模式,可以有效地规避集群脑裂,也降低了大规模集群稳定性问题的出现。
Raft协议详解:
分布式一致性技术是如何实现的
一致性协议Raft的工作原理及介绍
全新读写方式与读写分离
of 6
10墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论