在实际应用中,基于SQL或者说基于关系型数据库遇到跨数据的复杂问题,并不总是实用的,擅长处理关联数据的图数据库就成了解决这类问题的首选工具。

大数据时代中提出的4V理论很好的阐述了目前大数据的特征,数据量不断增大,实时性要求越来越高,数据来源越来越多,其实从前三个特征就可以预料到,现在的数据记录着人的方方面面,来刻画一个用户是越来越完整了。

数据越多,关联性就越强,但是这些信息由于分散在多个系统,不能很好的融合在一起,数据未能完全发挥出应有的价值。这是因为传统的数据存储方法将现实世界按照表格的形式来处理的,导致了数据之间的关系不再明显,用户无法直观的查阅数据之间的关系。
其实回顾关系型数据库的建模过程,就可以发现无论是概念模型和逻辑数据模型,都是基于图思维去构建的,只是受限于底层的存储机制,用表的形式来描述实体和关系。那关系型数据库会有哪些困境呢?
首先是建模层面:

比起建模层面的问题,关系型数据库更大的困境在于,随着数据量增多,很难满足实时性要求。
那图数据库是如何解决这些问题的呢?
首先以金融行业为例,在找出指定ID的所有电话号码和银行账户时,由于电话和银行账号都存在一对多,关系型数据库里会将用户电话信息和银行账号信息分别记录成两张表,在查询的时候基于多级索引进行查询。而图数据库会在数据存储层面将所有电话号和银行账户与用户ID关联,在查询的时候通过简单的一步遍历即查询到所有结果。
对于关系型数据库需要表关联的场景,图数据库更是发挥出了底层存储架构的优势。因为遍历时只会基于关联的边去遍历,遍历的复杂度是和计算效率比起关系型数据库快了几个数量级。
有了这样高效的查询性能,使得就一些复杂的事件进行实时查询变为可能,比如说:
该交易发起的前30分钟内是否在相距100公里以上的地点使用同一张信用卡进行支付的事件?
这个场景需要从该笔交易出发,收集到该交易的地理属性后去查询对应的银行卡,再看该银行卡30分钟内涉及哪些交易,再进行地理属性比对,这样的查询在图数据库中是可以实时返回结果的。
先来举个简单的例子,看看图分析能带来什么样的收益。这是一个实时反欺诈的场景,一个贷款申请提交后,需要短时间内对此申请进行信用评分,从而判定批准或拒绝该申请。
从图中可以看到需要参考这笔申请使用的设备、所在公司及公司法人情况,相关朋友及朋友情况,以及通话情况。
这里前三项是可以通过构建宽表的方式直接取到数据的。而通话关系这项评分就需要额外关联通话关系表去判断了。实际的评分逻辑不会这么简单,完全可以关联更多的信息去完善评分模型,但是基于关系型数据库去做大量的表关联是一件耗时的事情,于是以往的评分模型中可能就放弃了通话关系这条规则,这就可能导致一些额外的损失。
不同行业不同场景对数据关联提出了不同的要求。电信运营行业相较于金融行业,数据具备更强的社交属性。最近TigerGraph在配合运营商就“断卡行动”做了一个异常用卡的识别模型,通过判断同一用户下多张卡的社交情况来判定多张卡是否为本人或家人使用。以及通过社交圈提取拓扑关系,存为特征,用于机器学习评分。
机器学习最重要的就是特征的数量和质量,无论是学术界还是企业实际应用均表示,将图特征和原有特征结合后,模型的预测结果是有一定程度的提升的,各位研究机器学习的朋友也可以关注一下这方面的信息。
总结一下,图数据库的兴起正是因为关系型数据库无法应对在大数据量的场景下,用户对查询深度和实时性的需要。
而图数据库可以从存储层面解决数据孤岛的问题,在计算层面可以进行更广更深的搜索,结果的呈现上也更符合人脑对现实世界的认知。让企业拥有数据自然流传和产生价值的机制和能力,从而具备快速试错、快速决策、快速交付的能力。
观看完整版视频内容,请至官网图课堂
(https://www.tigergraph.com.cn/activities/webinar/ )
Notice
// 直播预告
///
NOCITCE
主题:
图技术赋能银行套现商户侦测
时间:
2021.04.01 上午10:30
主讲人:
唐欣蕾 算法研发工程师
观众收益:
为什么要用图分析,图分析能解决什么样的问题?
金融领域当中的图分析,会遇到哪些问题,如何解决?
在金融领域当中,图分析比传统关系型数据分析、包括机器学习,更适合于什么样的场景?
如何采用图分析来建立特定业务场景下问题的模型?进而优化?
扫描二维码
或点击“阅读原文”报名