本期将分享近期全球知识图谱相关
行业动态、会议课程、论文推荐

NoSQL数据库的制造商Aerospike近日推出图数据库Aerospike Graph,基于Apache TinkerPop开源图形框架,Aerospike的产品支持Gremlin查询语言,并且计划在明年第一季度支持Cypher的开源实现。它还使用Aerospike的键值存储作为图数据模型的基础,而不是本机图存储。Aerospike表示,其新图产品的底层架构使其能够在性能和规模上超越竞争对手,在数万亿个顶点和边上提供毫秒级多跳图查询。该公司表示,基准测试表明,吞吐量每秒超过100,000次查询,在硬件基础设施上运行的延迟不到10毫秒,仅为竞争对手的十分之一。
混合内存架构:Aerospike使用“混合内存架构”,它使每个节点或服务器都能将一组固态存储设备视为一种扩展内存。经常访问的数据存储在内存中内存和磁盘之间的移动是自动完成的,无需访问底层文件或操作系统
水平扩展:Aerospike 为跨多个节点水平扩展,能够管理分布在机器集群中的数据,以实现高吞吐量和低延迟。它还提供可配置的持久性选项,使用户能够控制数据持久性和复制的级别。


6月26日,东北大学知识图谱研究组发布了大语言模型TechGPT。据介绍,TechGPT是东北地区首个全量微调并开源的大模型,与当前其他各类大模型相比,TechGPT主要强化了以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务、以“逻辑推理”为核心的机器阅读理解等各类智能问答任务、以“文本理解”为核心的关键词生成等各类序列生成任务。目前该小组已分别在GitHub和HuggingFace上将模型相关内容开源,并提供了在线体验服务。

—--| 会议课程 |--—

随着计算系统变得越来越大、越来越复杂、分布式和集成化,大数据技术和服务变得越来越重要。IEEE BigDataService 2023 为学术界和工业界的研究人员和从业者提供了一个国际领先的论坛,以交流创新思想并分享这一关键领域的最新成果、经验和教训。
该会议将于2023年7月17至20日在希腊雅典卡利西亚市埃韦里泽卢大街70号哈罗科皮欧大学举行。
—--| 论文推荐 |--—
本周推荐的是发表于PPoPP 2023上的论文:Provably Fast and Space-Efficient Parallel Biconnectivity,提出对无向图求解二连通分量(biconnected component, BCC)的算法,该算法空间开销小且并行性高,作者来自加州大学。

文章的算法框架为,先得到原图G的一个子图 G’,然后求G’的CC(connected component),这些CC即对应G的BCC。算法步骤如下图所示。

其中对于G’的定义,文章受启发于对“Hopcroft-Tarjan基于DFS树求BCC的算法”的观察(若v子树和v的父亲(p(v))以外的部分是“隔离”的,则p(v)-v将DFS树分成BCC),把无向图的边分成四类,G’即原图G的仅包含其中某两类边
的子图,文章通过构造的方式和数学归纳法证明了G'和G具有这样的关系:G’中的所有的CC是G中的BCC,G中所有的BCC都是G’中的CC,从而证明了算法的正确性,证明框架如下图所示。

文章在27个数据集上开展了串行和并行的实验,以及拆分步骤的实验,实验结果表明,平均来讲,在每个数据集上FAST-BCC都比最好的对比算法快3.1x,实验代码开源在https://github.com/ucrparlay/FAST-BCC,感兴趣的读者可以关注。
更多链接
内容:崔舒媛、胡喆媛、袁知秋、王图图
诚邀您加入我们的gStore社区,我们将在群内解决使用问题,分享最新成果~
请在微信公众号图谱学苑发送“社区”入群~或扫码入群


欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“
实验室官网:https://mod.wict.pku.edu.cn/
微信社区群:请回复“社区”获取
gStore官网:http://www.gstore.cn/
GitHub:https://github.com/pkumod/gStore
Gitee:https://gitee.com/PKUMOD/gStore
