暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

南大通用GBase 8s 全文检索功能介绍

原创 JJJJJ 2022-08-31
309

GBase 8s内置的全文语法分析器使用单词之间的空白作为定界符来确定单词的开始和结束位置,这在使用不使用单词定界符的表意语言时是一个限制。为了解决此限制,GBase 8s提供了一个支持中文,日文和韩文(CJK)的ngram全文分析器。同时,为了解决日语的这一限制,GBase 8s提供了MeCab全文分析器插件。

全文搜索分为三种类型:

自然语言全文搜索

自然语言搜索将搜索字符串解释为自然人类语言中的短语(自由文本中的短语)。除双引号(“)字符外,没有特殊的运算符。停用词列表适用。如果指定了IN NATURAL LANGUAGE MODE修饰符或未给出修饰符,则全文搜索是自然语言搜索 。

布尔全文搜索

布尔搜索使用特殊查询语言的规则解释搜索字符串。该字符串包含要搜索的单词。它还可以包含指定要求的运算符,例如,匹配行中必须存在或不存在一个单词,或者其权重应高于或低于平常。某些常见单词(停用词)将从搜索索引中省略,并且如果出现在搜索字符串中则不匹配。该IN BOOLEAN MODE修饰符指定一个布尔搜索。

具有查询扩展的全文本搜索

查询扩展搜索是对自然语言搜索的修改。搜索字符串用于执行自然语言搜索。然后,将搜索返回的最相关行中的单词添加到搜索字符串中,然后再次执行搜索。该查询返回第二个搜索中的行。该IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION或WITH QUERY EXPANSION修改指定的查询扩展搜索。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论