暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
Xapian
编辑
简介:Xapian 是一个开源搜索引擎库。
简介:Xapian 是一个开源搜索引擎库。
产品概览 用户评价

产品简介

Xapian 是一个开源搜索引擎库,在 GPL v2+下发布。它是用C++编写的,具有允许从 Perl、 Python 2、 Python 3、 PHP 5、 PHP 7、 Java、 Tcl、 C#、 Ruby、 Lua、 Erlang、 Node.js 和 R使用的绑定 (到目前为止!)
Xapian 是一个适应性很强的工具包,它允许开发人员轻松地将高级索引和搜索工具添加到他们自己的应用程序中。它内置了对几个加权模型系列的支持,还支持一组丰富的布尔查询运算符。

版本信息

最新稳定版本为1.4.19 ,发布于 2021-12-31。
最新的旧稳定版本是1.2.25 ,发布于 2017-09-26。

产品特点

  • 自由软件/开源 - 在 GPL下获得许可。
  • 支持 Unicode 9.0(包括 BMP之外的代码点),并以 UTF-8 存储索引文本。
  • 高度便携
    在 Android、Linux、macOS、FreeBSD、NetBSD、OpenBSD、Solaris、HP-UX、AIX 和可能的其他 Unix 平台上运行;以及 Microsoft Windows 和 OS/2。
  • 用 C++ 编写,具有允许从许多其他语言使用的绑定。
  • 排名搜索(因此最相关的文档更有可能靠近结果列表的顶部),内置支持来自权重模型的概率、随机发散和语言建模系列的多个模型。还支持自定义用户提供的加权模型。
  • 相关性反馈
    给定一个或多个文档,Xapian 可以建议最相关的索引词来扩展查询、建议相关文档、对文档进行分类等。
  • 短语和邻近搜索
    用户可以按指定顺序或任何顺序搜索出现在确切短语或指定数量单词中的单词。
  • 全方位的结构化布尔搜索运算符(“股票而非市场”等)。
    布尔搜索的结果按加权模型排序,也可以应用布尔过滤器(它们本身不会影响文档的权重)。
  • 支持搜索词的词干提取(例如,搜索“football”将匹配提及“footballs”或“footballer”的文档)。这有助于找到否则可能会丢失的相关文件。 Snowball 词干分析器目前包括阿拉伯语、亚美尼亚语、巴斯克语、加泰罗尼亚语、丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、印度尼西亚语、爱尔兰语、意大利语、立陶宛语、尼泊尔语、挪威语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、泰米尔语和土耳其语。
  • 支持通配符搜索(例如“xap*”)。
  • 支持同义词,显式(例如“~cash”)和查询扩展的自动形式。
  • 可以从匹配的文档中生成动态生成的片段,并突出显示匹配的单词、短语和通配符。
    -Xapian 可以为用户提供的查询建议拼写更正。这是基于在被索引的数据中出现的单词,因此即使是在字典中找不到的单词也可以工作(例如,“xapian”将被建议作为“xapain”的更正)。
  • 支持分面搜索。
  • 支持大于 2GB 的数据库文件,这对于 扩展到大型文档集合是必不可少的。
  • 平台无关的数据格式
    你可以在一台机器上建立一个数据库并在另一台机器上搜索它。
  • 允许同时更新和搜索。新文档立即变得可搜索。

除了库之外,我们还提供了一些小型示例程序和一个更大的应用程序 - 一个名为 Omega 的索引和 CGI​​ 搜索应用程序:

  • 提供的索引器可以索引 HTML、PHP、PDF、PostScript、LibreOffice/OpenOffice/StarOffice、OpenDocument、Microsoft Word/Excel/Powerpoint/Publisher/Visio/Works/XPS、Microsoft Outlook 保存的消息、Apple iWork、Word Perfect、AbiWord、RTF , DVI, Perl POD 文档, CSV, SVG, reStructured text, markdown, MAFF, MHTML, ATOM feeds, dejavu, RFC822 mail messages (.eml), vCard, RPM packages, Debian packages, and plain text。在转换过滤器可用的情况下,添加对索引其他格式的支持很容易。这个索引器使用文件系统工作,但我们还提供了一个脚本来允许 htdig 网络爬虫被挂钩,从而允许使用 Omega 搜索远程站点。
  • 您还可以索引来自 Perl DBI 模块支持的任何 SQL 或其他 RDBMS 的数据。这包括 MySQL、PostgreSQL、SQLite、Oracle、DB2、MS SQL、LDAP 和 ODBC。
  • CGI 搜索前端提供高度可定制的外观。这也可以自定义为以 JSON、XML 或 CSV 格式输出结果,如果您只想要原始搜索结果,您可以在自己的页面布局代码中处理动态生成的页面,或者将搜索集成到 AJAX 前端,这将非常有用.

用户评价

0
0
词条统计
创建者:小芳
编辑次数:2
浏览次数:1079
API调用次数:0
贡献者