Elasticsearch系列-分词器知识整理

DonACE 2024-11-19

133

一、前言

Elasticsearch是目前使用最广泛的开源搜索引擎之一，它具有分布式、高可用、快速、可扩展等优点。在中文搜索领域，Elasticsearch同样表现出色，其中最重要的一个因素就是中文分词器的支持。本文将介绍部分Elasticsearch中文分词器的使用方法。

分词器（Analyzer），顾名思义就是一种用于将文本转换为单词或词条 (term/token) 的工具，在ES中分词（Analysis）过程是通过分词器来实现的。

比如，举个简单的例子，用户输入Chinese Dictionary, 分词器会将这个词语拆分成两个单独的单词，分别是 chinese 和 dictionary，同时在此过程中也会将其转换成小写。

Tokenizer（分词器）：将文本拆分为单词或词条的组件。Elasticsearch提供了许多内置的分词器，例如标准分词器、简单分词器、正则表达式分词器等。
Token Filter（分词过滤器）：在分词器生成的单词或词条基础上进行处理的组件。例如，停用词过滤器可以删除常用单词（例如"a"、"an"、"the"）、大写转小写、增加同义语，以便将精力集中于更重要的单词。
Character Filter（字符过滤器）：在文本被分析之前，对其进行预处理的组件。例如，HTML字符过滤器可以从HTML文本中删除标记，以便只留下纯文本。
分词器三个部分的执行顺序如下图所示：