浅谈知识图谱的构建与应用
作者:51AntiFraud
自从2012年Google推出自己第一版知识图谱以来,各大互联网企业也纷纷推出了自己的知识图谱产品。知识图谱是把所有不同种类的信息连接在一起而得到的一个关系网络,它提供了从“关系”的角度去分析问题的能力,是关系最有效的表达方式,目前在营销、交通、风控场景,知识图谱均有应用。今天,我们从反欺诈的角度浅谈知识图谱的构建与应用。在互联网金融行业,不少的欺诈案件会涉及到复杂的关系网络,而知识图谱可以帮助我们更有效的分析复杂关系中存在的特定的潜在风险,可以提高贷前信审和贷后监控的效率,对于金融风险的控制也有着极大的裨益。
知识图谱的整体构建
我们通过将借款人的关键信息数据整合到知识图谱中,逐步挖掘与这些信息有关联的其他个人,形成关系网络,从而进行分析和诊断。知识图谱作为一种基于图的数据结构,它由节点(实体)和边(关系)组成,每个节点代表一个个体,每条边为个体与个体之间的关系,把与借款人有关的所有数据都打通,构建包含多数据源的知识图谱。在构建过程,我们需要通过节点定义,边关系处理以及规则集搭建来实现图谱的展示。
第一,定义业务节点。节点即为实体数据,如客户的ID,身份证,手机号,设备,微信,微博,邮箱,QQ等等,一般用户ID我们认为是业务的核心顶点。可以利用任意节点拓展用户所有信息。同时可以建立双节点关联,实现节点之间的关系查询。
第二,边关系的处理。边关系是用来描述两节点间边的属性内容。例如在使用设备信息时,用户可能有登录、注册、转账等不同的行为属性,手机也有呼入呼出等不同的行为属性,在处理边关系时,我们加入属性描述和构建能更加有效的识别用户的行为轨迹和关联关系。
第三,规则集搭建。有了节点和关系,我们已经构建了基础的关系网络,但这样的网络并不能直接将反欺诈所需要的核心业务信息展示使用,这时规则集的搭建就显的格外重要。例如我们使用手机号聚集关联,IP聚集关联,公司聚集关联,设备聚集关联,通讯录重合度聚集关联等等,将节点与节点之间的关联关系聚集,形成聚集关联,直接用于查询,快速定位案件性质。
完成如上数据整理工作后,结合neo4j的图形数据库,我们来看看最终的图展示效果:
如上图,我们发现该A客户手机通讯录中将好几个手机号备注为XX客户,而XX客户同样为申贷用户且存在共性问题(如申贷时间差不多,使用设备重合,逾期…),且他们的通讯录中将该A客户备注为贷款中介,由此可定位A客户很可能是中介,再结合其他可疑点定性中介欺诈,进而挖掘团伙。
我们利用图谱的数据结构,构建反欺诈知识图谱有效抵御个人信息造假,组团欺诈的风险。当然知识图谱不仅在反欺诈调研中能帮助更好更快速的案件定性,在逾期催收中也起着重要的作用,比如很多逾期客户失联,通过知识图谱的关联可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收成功率。篇幅原因,文中的一些技术细节不做更多讨论。
知识图谱的广泛应用
毫无疑问,知识图谱的图展示应用能非常有效快速定位用户的关联关系和识别团伙案件,除了基础应用之外,我们可以继续加入模糊匹配和消除歧义等技术应用来进一步完善图谱的应用。同时基于图算法我们还能进一步挖掘其中价值,例如通过不同人之间的紧密程度计算来分析用户的风险等级并融入模型应用。同样也正是基于图计算的逻辑能完成用户关系、偏好、行为轨迹等一系列的识别,在大数据时代,在合理采取用户数据的前提下,相信图谱会更加多的运用在医疗、保险、营销等方方面面。
本文由 51AntiFraud 投稿至36大数据,并经由36大数据编辑发布,转载必须获得原作者和36大数据许可,并标注来源36大数据http://www.36dsj.com/archives/85422,任何不经同意的转载均为侵权。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 浅谈知识图谱的构建与应用