DSE精选文章|地理标记实体扩展参与系统中Top-k实体的高效索引

CCF数据库专委 2022-07-25

222

DSE精选文章

地理标记实体扩展参与系统中Top-k实体的高效索引

Efficient Indexing of Top-k Entities in Systems of Engagement with Extensions for Geo-tagged Entities

Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办，数据库专业委员会承办，施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE第6卷第4期发文，得到中新赛克赞助文章处理费。

文章介绍

目前，基于参与系统（SOE,Systems of Engagement）模型的新一代企业管理系统发展迅速。SOE可被视为一组实体组成，每个实体由具有动态嵌入链接（即子文档）的单个父文档建模，其中包含来自网络实体的多模态信息。由于SOE中的实体通常使用关键字进行查询，因此该文通过考虑父文档和子文档的相关性分数，有效地检索相关的前k个实体。这项工作的主要贡献有四个方面：

（1）提出了一种有效的基于位图快速识别候选实体集的方法，其父文档包含所有查询的关键字。同时提出了一种该方法的变体，通过利用关键字流行度的偏差来减少内存的消耗。

（2）提出了双层HI-tree索引结构，同时使用了哈希和倒排索引，用于高效的文档相关性得分查找。

（3）提出了一种基于R树的方法，将上述方法扩展到实体被地理标记的情况中。

（4）在真实数据集和合成数据集上进行了全面的实验，证明了所提出的方案确实能够在可接受的查询响应时间内表现出良好的top-k结果召回性能。

实验效果

图1展示了一个面向SOE的CRM应用程序，其中实体是客户，如Alice、Bob和Chuck。观察Alice的子文档如何构成其在电子邮件系统、电话系统、社交网络页面和产品评论页面上的交互。SOE可以包含每个实体的不同类型的数据模型（例如电子邮件、电话、社交页面等），可以通过采用数据集成方法进行集成。除此之外，该文还考虑到可以转录成文本的多模式数据（例如，电话的语音数据）。

图1 面向SOE的CRM应用程序

如图2所示，描述了面向SOE的CRM应用程序的父文档和子文档的示例。举例来说，假设Alice最近购买了三星Galaxy note 2手机，并就其手机充电器问题对各种系统发表了评论。该公司可能希望找到投诉手机充电器问题的top-k个客户。这里，top-k查询可以基于与充电器问题相关联的关键字在客户的各种交互网络中的出现频率来定义。

图2 面向SOE的CRM应用程序中父文档和子文档的示例

如图3和图4所示，分别描述了计算父文档相关性分数的示例。在图3中，父文档和子文档分别是D1到D4和C1到C6。对应于D1、D2、D3和D4的子文档分别为{C1、C2、C3}、{C3、C5}、{C1、C5}和{C1、C2、C4、C6}，在其中可以进行一个具有两个关键字a1和a2和的top-k查询。

图3 嵌入链接的文档语料库

图4以两种方式显示了D1到D4 w.r.t.a1和a2的相关性分数的计算，分别对应考虑和不考虑子文档中查询关键字出现的情况。

图4 计算文档相关性分数

如图5所示，给出了如何进行搜索以查找给定的桶。为了快速定位与给定关键字搜索查询相关的哈希桶，哈希桶以B+树的形式组织。B+树中散列桶的排序是基于单词的字典顺序，此顺序可以作为标识符分配给这些桶。

图5 通过哈希树查找相关桶示例

如图6所示，描述了父文档在空间中各自位置的示例，图(a)中每个点表示父文档的位置(b)描述了(a)中父文档在空间中的分布相对应的R树的结构。观察通用空间如何划分为三个MBRs，即R1、R2和R3。进一步观察R1如何细分为MBRs A、B和C；R2细分为D、E和F，而R3细分为G、H和I。

(a)父文档在空间中分布 (b) R树索引结构

图6 父文档在空间中分布的示例

结语

该文通过有效检索SOE中的前k个实体解决了基于关键字的查询问题，并将上述问题扩展到处理地理标记实体。特别地，该文提出了一种有效的基于位图的方法来快速识别候选集，通过利用关键字流行度的偏差来减少内存消耗的变体。进一步作者提出了使用散列索引和倒排索引的两层HI-tree 索引，用于文档相关性分数高效查找。此外，该文还讨论了一种基于R树的方法进行扩展，以解决地理标记实体的问题。

作者简介

Anirban Mondal博士是阿育王大学计算机科学副教授。他在新加坡国立大学的计算机学院获得博士学位。他的研究兴趣包括大数据分析、移动和泛在数据管理、基于激励的移动众包、空间数据库、数据库索引、大数据、物联网等。

Ayaan Kakkar于2016-2018年就读新德里公里学校，2018年至今于新德里印度信息技术研究所（IIIT-Delhi）工作。他的主要研究方向为数据库管理、机器学习和网络科学。

Nilesh Padhariya是阿特米亚理工学院副教授。他在印度理工学院获得学士和硕士学位，在Indraprastha 信息技术学院获得博士学位。他的研究兴趣包括数据库系统、分布式系统等。

Mukesh Mohania博士1995年在印度理工学院获得计算机科学与工程博士学位。1995年至2001年在南澳大利亚大学和西密歇根大学任教，之后在IBM研究院（印度和澳大利亚）担任杰出工程师。他的研究兴趣是信息（结构化和非结构化数据）集成、数据管理、基于人工智能的实体分析、大数据分析和应用以及区块链数据管理。

期刊简介

Data Science and Engineering（DSE）是由中国计算机学会（CCF）主办、数据库专业委员会承办、施普林格自然（Springer Nature）出版的Open Access期刊。为了迎合相关领域的快速发展需求，DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点，以大数据作为研究重点，征稿范畴主要包括4方面：（1）数据本身，（2）数据信息提取方法，（3）数据计算理论，和（4）用来分析与管理数据的技术和系统。

目前期刊已被EI、ESCI与SCOPUS收录，CiteScore 2021为6.4，在Computer Science Applications领域排名# 157/747（位列前21%）。稿件处理费由赞助商中新赛克（Sinovatio）承担，欢迎大家免费下载阅读期刊全文，并积极投稿。

原文链接：

https://link.springer.com/article/10.1007/s41019-021-00173-1

索引大数据地理哈希

文章转载自CCF数据库专委，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

DSE精选文章|地理标记实体扩展参与系统中Top-k实体的高效索引

评论

相关阅读