解密PostgreSQL jieba中文分词器-安装与使用的真相

云贝教育 2021-06-16

1875

点击上方蓝字关注我们吧

windows下安装
匹配版本
python-3.4.3.amd64.msi
postgresql-10.1-2-windows-x64.exe


linux下安装python3
unzip python3.4.3.zip压缩包
./configure --prefix=/opt/python34/ --enable-shared CFLAGS=-fPIC ALLUSERS=1
$ make && make altinstall
mv usr/bin/python usr/bin/python2.7.5
这里有两个路径: usr/bin/python 是原位置，所以备份一下。
ln -s opt/python3410/bin/python3.4 usr/bin/python
安装结束 查看版本
python –V


解压jieba-master.zip压缩包,进入目录执行安装命令。该包可以在github上下载到。
Python setup.py install –安装jieba分词器


测试是否安装成功
psql -h 127.0.0.1 -p 5432 postgres postgres


psql -h 127.0.0.1 -p 5432 postgres postgres
create language plpython3u; --创建python语言支持
select * from pg_language;


--创建测试函数
create or replace function to_tsv(i_text text) returns tsvector as $$    
   import jieba
   seg_list = jieba.cut(i_text, cut_all=True);
   return("".join(seg_list))
$$ language plpython3u;


select to_tsv('我爱北京天安门');
复制

jieba.cut方法接受三个输入参数

需要分词的字符串；
cut_all参数用来控制是否采用全模式；
HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数：

1、需要分词的字符串；

2、是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。

*注意：

不建议直接输入 GBK 字符串，可能无法预料地错误解码成UTF-8 jieba.cut 以及jieba.cut_for_search 返回的结构都是一个可迭代的 generator。

可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 listjieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。

jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

点分享

点点赞

点在看

postgresql

文章转载自云贝教育，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

解密PostgreSQL jieba中文分词器-安装与使用的真相

评论