暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

知识图谱在医学领域的应用探索

疤痕疙瘩研究中心 2018-06-22
2574

知识图谱(Knowledge Graph)的概念由谷歌 2012 年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。


知识图谱本质上是一种叫做语义网络(semantic network)的知识库,即具有有向图结构的一个知识库;图的结点代表实体(entity)或者概念(concept),而图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。


目前而言,知识图谱领域我们更能够看到和接触到的内容中,做的比较好的是医疗领域的UMLS(统一医学建模语言),可以作为我们构建知识图谱的时候,一个比较好的参考。统一医学语言系统( Unified Medical Language System,UMLS) 是美国国立医学图书馆( National Library of Medicine,NLM) 于1986 年开始建设的一体化医学知识语言,具有集成性、跨领域和工具化的特点。UMLS 在信息检索( Information Retrieval) 、自然语言处理( Natural Language Processing) 、电子病历( Electronic Patient Records) 、健康数据标准( Health Data Standards) 等方面得到了广泛的研究和应用。NLM 应用UMLS 的系统和项目主要有PubMed,提供对Medline 和其他相关数据库的免费检索; NLM Gateway,提供对NLM 多个系统的集成检索,包括Medline、OLD Medline、LocatorPlus、PubMed、AIDS Meetings、HSRProj 和MedlinePlus 等。


UMLS中对于语义类型、语义关系、本体对象的定义和表示,可以作为我们非常好的参考,对于医学领域是一个很好的行业标准,对于其他领域,是一个很好的跨域参考标准。


关于知识图谱的存储,首先明确一个原则,没有图数据库之前,知识型的内容,同样有处理办法,因此图数据库只是知识图谱存储的方式之一。任何一种问题,都有不止一个解决方案,只是方案之间有着不同的优势而已。知识图谱的存储方式,在不同时期,不同场景下有不同的技术方案,有着明显的时间特征和场景特征。常用的知识图谱的方式包括:关系型数据(RDBMS)、三元组(RDF)和图数据库(Graph DB)。


图数据库之间各有优劣,Neo4j可视操作,文档支持,企业服务支持做的比较好,是无绝对开发能力团队的首选,同时因为社区版本的免费,特别适合新手学习。Titan是基于分布式存储模式提交下的开源系统,适合存储体量比较大需求场景,但是已经很久没有更新,适合技术团队能力比较强的组织采用。


知识图谱的构建包括三个步骤:

(1)信息抽取:从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

(2)知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

(3)知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中, 以确保知识库的质量。新增数据之后,可以进行知识推理、拓展现有知识、得到新知识。


下面我们来尝试对疾病心律失常的病因进行构建,首先我们要先找到比较权威的知识来源,比如内科学、权威医学知识科普网站等,然后我们对其中的内容进行抽取,并通过Neo4j图数据库和医务人员的协助来进行创建各个节点和节点之间的关系,以完成知识融合和知识加工。

心律失常(arrhythmia)是由于窦房结激动异常或激动产生于窦房结以外,激动的传导缓慢、阻滞或经异常通道传导,即心脏活动的起源和(或)传导障碍导致心脏搏动的频率和(或)节律异常。心律失常是心血管疾病中重要的一组疾病。它可单独发病,亦可与其他心血管病伴发。其预后与心律失常的病因、诱因、演变趋势、是否导致严重血流动力障碍有关,可突然发作而致猝死,亦可持续累及心脏而致其衰竭。


病因

遗传性心律失常多为基因通道突变所致,如长QT综合征、短QT综合征、Brugada综合征等。

后天获得性心律失常可见于各种器质性心脏病,其中以冠状动脉粥样硬化性心脏病(简称冠心病),心肌病,心肌炎和风湿性心脏病(简称风心病)为多见,尤其在发生心力衰竭或急性心肌梗死时。发生在基本健康者或植物神经功能失调患者中的心律失常也不少见。其他病因尚有电解质或内分泌失调,麻醉,低温,胸腔或心脏手术,药物作用和中枢神经系统疾病等,部分病因不明。


知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。目前,知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。


在未来的几年时间内,知识图谱毫无疑问将是人工智能的前沿研究问题。知识图谱的重要性不仅在于它是一个全局知识库,更是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。从这个意义上来看,知识图谱不仅是一项技术,更是一项战略资产。


同样的,我们可以通过知识图谱连接全部医疗健康概念和知识,来帮助解决医学知识多、杂的问题。

文章转载自疤痕疙瘩研究中心,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论