文档是搜索引擎的基本数据单元,比如一个网页,当多个文档集合在一起就是一个搜索引擎的完整数据。
倒排索引,正排索引,存储在搜索引擎内部的数据结构,也是搜索引擎最底层的数据结构,也叫逆向索引和正向索引,我们叫倒排索引和正排索引。
索引器,将文档数据生成可供搜索的倒排索引和正排索引的程序就是索引器。
检索器,通过对倒排索引和正排索引进行查找,从而查找到文档的程序。
字段,每个文档可能有多个字段,比如一篇文章有标题,作者,摘要,详情,发布时间的,这些东西虽然在一个文档中,但是搜索的时候需要区别对待。
索引,多个文档通过索引器生成了一堆倒排正排索引,我们把这些倒排正排索引的集合叫索引,如果后面提到索引就是指正排和倒排索引的集合,索引也可以理解为数据库中的表。
一个完整的搜索引擎包含两部分,第一部分是索引器把文档变成倒排和正排文件,第二部分是检索器通过倒排和正排文件还原显示文档的过程。
形象的比喻为:一个叫作做字典,一个叫作查字典。
文章转载自seo优化教程老竹,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。