1 .一种实体消解并行处理方法,其特征在于,所述实体消解并行处理方法包括:
获取待消解数据集,将所述待消解数据集中的实体元组划分为不相交的至少一个分
区,其中,所述待消解数据集包括至少两个实体元组;
针对任一分区,将所述分区内所有实体元组均分为N个区间,将M个连续的区间形成一
个窗口,所有窗口依次串行处理,其中,N大于M,且N和M均为大于零的正整数;
针对任一窗口,对所述窗口内的每个区间分别分配一个线程块,其中,所述线程块用于
将对应的区间内的目标元组分别与所述分区内除所述目标元组外的实体元组进行匹配得
到匹配结果,所述窗口内的线程块为并行处理;
若所述窗口内任一区间对应的线程块执行完毕,则使用执行完毕的线程块对所述窗口
的下一个窗口中的区间进行处理,直至所有区间均被对应的线程块处理后得到全部的匹配
结果,所述全部的匹配结果用于指导所述待消解数据集对其中实体元组进行去重。
2 .根据权利要求1所述的实体消解并行处理方法,其特征在于,所述将M个连续的区间
形成一个窗口,包括:
使用预设长度的窗口,以所述预设长度的步长,在所述N个区间上滑动,所述预设长度
为M个连续的区间的长度;
确定每次滑动停止时包括的区间为对应的窗口的区间。
3 .根据权利要求1所述的实体消解并行处理方法,其特征在于,在所述将M个连续的区
间形成一个窗口之后,还包括:
构建位图,所述位图中每一位表征一个区间被对应的线程块处理的处理状态;
针对任一线程块,若所述线程块为空闲状态,则从所述位图中选取一处理状态为未处
理的区间,其中,所述空闲状态的线程块为对所有窗口分配的区间进行处理且处理完成;
使用所述线程块对所述未处理的区间进行处理,得到对应的匹配结果。
4 .根据权利要求3所述的实体消解并行处理方法,其特征在于,在所述从所述位图中选
取一处理状态为未处理的区间之前,还包括:
检测所述位图中是否存在处理状态为未处理的区间;
若检测到所述位图中存在处理状态为未处理的区间,则执行所述从所述位图中选取一
处理状态为未处理的区间;
若检测到所述位图中不存在处理状态为未处理的区间,则确定处理状态为执行中的区
间;
通知所述执行中的区间对应的线程块,将所述执行中区间对应的剩余执行任务分为预
设份数的子任务;
将其中一个子任务留在所述执行中的区间对应的线程块中进行处理,得到对应的匹配
结果;
将剩余的每个子任务分别分发给一个空闲状态的线程块进行处理,得到对应的匹配结
果。
5 .根据权利要求4所述的实体消解并行处理方法,其特征在于,在所述通知所述执行中
的区间对应的线程块之前,还包括:
获取所有空闲状态的线程块的空闲数量;
所述通知所述执行中的区间对应的线程块,将所述执行中区间对应的剩余执行任务分
权 利 要 求 书
1/2 页
2
评论