暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A Simple词典

墨天轮 2019-10-12
666

Simple词典

Simple词典首先将输入标记转换为小写字母,然后检查停用词表。如果识别为停用词则返回空数组,即表示该标记会被丢弃。否则,输入标记的小写形式作为规范化后的lexeme返回。此外,Simple词典可通过设置参数Accept为false(默认值true),将非停用词报告为未识别,传递给后继词典继续处理。

注意事项

  • 大多数词典的功能依赖于词典定义文件,词典定义文件名仅支持小写字母、数字、下划线组合。
  • 临时模式pg_temp下不允许创建词典。
  • 词典定义文件的字符集编码必须为UTF-8格式。实际应用时,如果与数据库的字符编码格式不一致,在读入词典定义文件时会进行编码转换。
  • 通常情况下,每个session仅读取词典定义文件一次,当且仅当在第一次使用该词典时。需要修改词典文件时,可通过ALTER TEXT SEARCH DICTIONARY命令进行词典定义文件的更新和重新加载。

操作步骤

  • 创建Simple词典。

    1
    2
    3
    4
    CREATE TEXT SEARCH DICTIONARY public.simple_dict (
         TEMPLATE = pg_catalog.simple,
         STOPWORDS = english
    );
    

    其中,停用词表文件全名为english.stop。关于创建simple词典的语法和更多参数,请参见CREATE TEXT SEARCH DICTIONARY。

  • 使用Simple词典。

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    SELECT ts_lexize('public.simple_dict','YeS');
     ts_lexize 
    -----------
     {yes}
    (1 row)
    
    SELECT ts_lexize('public.simple_dict','The');
     ts_lexize 
    -----------
     {}
    (1 row)
    

  • 设置参数ACCEPT=false,使Simple词典返回NULL,而不是返回非停用词的小写形式。

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false );
    ALTER TEXT SEARCH DICTIONARY
    SELECT ts_lexize('public.simple_dict','YeS');
     ts_lexize 
    -----------
    
    (1 row)
    
    SELECT ts_lexize('public.simple_dict','The');
     ts_lexize 
    -----------
     {}
    (1 row)
    


查看更多:华为GaussDB 200 词典
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论