暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

解密PostgreSQL jieba中文分词器-安装与使用的真相

云贝教育 2021-06-16
1875

点击上方蓝字关注我们吧


    windows下安装
    匹配版本
    python-3.4.3.amd64.msi
    postgresql-10.1-2-windows-x64.exe


    linux下安装python3
    unzip python3.4.3.zip压缩包
    ./configure --prefix=/opt/python34/ --enable-shared CFLAGS=-fPIC ALLUSERS=1
    $ make && make altinstall
    mv usr/bin/python usr/bin/python2.7.5
    这里有两个路径: usr/bin/python 是原位置,所以备份一下。
    ln -s opt/python3410/bin/python3.4 usr/bin/python
    安装结束 查看版本
    python –V


    解压jieba-master.zip压缩包,进入目录执行安装命令。该包可以在github上下载到。
    Python setup.py install –安装jieba分词器


    测试是否安装成功
    psql -h 127.0.0.1 -p 5432 postgres postgres


    psql -h 127.0.0.1 -p 5432 postgres postgres
    create language plpython3u; --创建python语言支持
    select * from pg_language;


    --创建测试函数
    create or replace function to_tsv(i_text text) returns tsvector as $$
    import jieba
    seg_list = jieba.cut(i_text, cut_all=True);
    return("".join(seg_list))
    $$ language plpython3u;


    select to_tsv('我爱北京天安门');
    复制


    jieba.cut方法接受三个输入参数



    • 需要分词的字符串;

    • cut_all参数用来控制是否采用全模式;

    • HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数:

    1、需要分词的字符串;
    2、是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是unicodeUTF-8字符串、GBK字符串。


    *注意:

    不建议直接输入 GBK 字符串,可能无法预料地错误解码成UTF-8 jieba.cut 以及jieba.cut_for_search 返回的结构都是一个可迭代的 generator。
    可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 listjieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。
    jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。


    点分享


    点点赞


    点在看

    文章转载自云贝教育,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论