1 .一种日志结构合并树的文件合并方法,其特征在于,包括:
步骤1、统计用户使用频率最高的查询时间范围、查询时间序列的频繁项集、用户当前
写入文件的速率和文件合并平均速度;
步骤2、从用户写入文件的生成时间较近期往时间较远期,计算每个可能的文件合并候
选集对常用查询的最终收益,得到合并收益最大的文件合并候选集;
步骤3、将所述合并收益最大的文件合并候选集的最常被查序列进行合并,将合并结果
文件替换被合并的文件。
2.根据权利要求1所述的日志结构合并树的数据合并方法,其特征在于,统计用户使用
频率最高的查询时间范围、查询时间序列的频繁项集、用户当前写入文件的速率和文件合
并平均速度,包括:
(1)根据用户的近期文件查询的时间范围,构建一个查询时间范围概率表,得到使用频
率最高的查询时间范围;
(2)根据用户的近期文件查询的时间序列,构建一个查询时间序列的频繁项集;
(3)在内存关闭一个文件时,根据写满文件所需时间、写入文件开始时间和结束时间,
计算用户的当前写入速率,并实时在监控系统中更新当前用户写入速率;
(4)在合并完数据后记录本次合并的数据量及合并所需时间,并得到用户当前数据的
合并平均速度,并实时在数据监控系统中更新数据的合并平均速度。
3.根据权利要求1所述的日志结构合并树的数据合并方法,其特征在于,所述从用户写
入文件的生成时间较近期往时间较远期,计算每个可能的文件合并候选集对常用查询的最
终收益,得到合并收益最大的文件合并候选集,包括:
(1)从用户写入文件的生成时间较近期往时间较远期,依次遍历用户写入文件的文件
列表;
(2)定义每一个可合并的连续文件段为文件合并候选集,根据用户合并平均速度,遍历
所述文件列表中的所有文件合并候选集,计算各文件候选集的所需合并时间;
(3)根据各文件候选集的相应用户写入速率和用户使用频率最高的查询时间范围,从
文件列表中过滤掉合并后不被用户常用查询使用的文件合并候选集,得到多个第一文件合
并候选集;
(4)分别记录各第一文件合并候选集中使用户常用查询减少的磁盘寻道次数,将用户
常用查询减少的磁盘寻道次数与合并生效的时间范围的乘积定义为合并收益;
(5)遍历所有所述第一文件合并候选集,重复步骤(4) ,得到各第一文件合并候选集的
合并收益,从各第一文件合并候选集的合并收益中,选出合并收益最大的文件合并候选集。
4 .如权利要求1所述的一种数据价值敏感的新型日志结构合并树机制,其特征在于,将
所述收益最大的文件合并候选集的最常被查序列进行合并,将合并结果文件替换被合并的
文件,完成日志结构合并树的数据合并,包括:
(1)设定文件合并次数的阈值,对所述合并收益最大的文件合并候选集进行判断,若合
并收益最大的文件合并候选集被合并的次数大于设定阈值,则对合并收益最大的文件合并
候选集中的所有时间序列进行合并,并使该合并的大文件替换被合并的原文件;若合并收
益最大的文件合并候选集被合并的次数小于或等于设定阈值,则将合并收益最大的文件合
并候选集中的查询时间序列的频繁项集进行合并,并使该合并的大文件替换被合并的原文
权 利 要 求 书
1/2 页
2
评论