星环科技:企业如何通过图数据库及知识图谱形成业务壁垒
随着业务数据量级猛增、业务数据类型愈加多样化、业务复杂程度的激增,传统的关系型数据库早已无法反映企业业务情况的全貌,对于分析对象之间的关系洞察也显露出了能力瓶颈。在这样的大背景下,企业对图数据库的需求应运而生。
区别于传统的关系型数据库,图数据库 以实体为点,点与点的关联关系为边,对数据进行存储。 企业开始使用原生图存储的形式存储多样化的数据,是希望能够使用图的计算形式来对实体间错综复杂的关系快速形成深入洞察,从而沉淀成企业智慧,进一步提升业务的智能化水平,降低现有高昂的人力成本,解决以往的人力决策难以跟上业务数据发展的问题。
以大数据能力为坚实底座
图数据库+TDH计算引擎实现优异的性能表现
目前市面上的开源图数据库较适用于个人用户,对于企业用户而言,图数据一般来源于已有的大数据系统,随着数据量的增长和业务模型逐渐复杂,开源图数据库既无法承受大规模图存储和计算,也无法融入大数据生态,徒增系统复杂程度。
基于此痛点,星环 科技 自主研发了分布式图数据库StellarDB,以分布式的计算引擎为动力, 可帮助用户实现任意数据规模的图计算,且计算能力随节点数线性扩展,可以支撑万亿级别图规模存储。 除了支持大规模的数据集外,StellarDB还具备深度的图分析能力,支持10层以上的深度复杂图遍历。
星环图数据库StellarDB为大数据平台提供了良好的兼容服务,可以快速接入已有的大数据平台。
图1 星环科技分布式图数据库StellarDB
StellarDB的查询性能和图算法能力已经达到行业领先水平。 本次测试采用了公开数据集twitter-2010,其点边规模分别为四千万和十四亿。对比图数据库分别为:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及JanusGraph 0.5.2。本次比较的内容包括:数据导入测试、多度查询测试、多度最短路径测试,以及图算法测试。
最终结果如图2所示,横坐标表示耗时的倍数,以StellarDB的运行时长为基准,设定为1,柱越长代表查询或导入任务耗时越久,无柱状表示超过2h无结果返回或出现OOM报错。
我们首先来看数据导入速度, StellarDB在面对十亿边数据量集的导入速度在15分钟左右, 其他开源数据库的导入时间在近半小时级至半天级不等。我们接下来对2度及3度查询进行比较,可以看到在4次查询任务当中,StellarDB均有较好的性能表现:2度邻居查询的性能分别为其他产品的5-20倍不等;2度最短路径查询甚至达到1~40倍不等;3度最短路径查询达到1.4倍;而在3层邻居查询任务中, StellarDB能在亚分钟级查询出4.3亿条结果, 而ArangoDB在4项查询任务中均超时。在图算法方面,StellarDB的PageRank结果返回速度也超其他返回结果速度2倍以上。
可见,面对国外厂商Neo4j擅长的小数据量短查询场景,StellarDB在大图2度邻居查询中表现出了5倍的较大优势,并快速查询出Neo4j无法返回的3度邻居查询。可见 StellarDB对于海量的大图数据集有明显的性能优势,且随着层数的增大,对多度及最短路径的查询优势愈加明显, 而其他图数据库往往会产生报错、无法返回结果等情况。
图2 StellarDB性能测试耗时对比图
在使用便捷性方面,StellarDB内置了近20种常见的图算法,可满足用户各类图分析需求,并且支持2D/3D的全景分析及展现,利用可视化技术帮助用户快速获取数据基于关联性的深度洞察。同时,StellarDB可以满足 实时图查询和离线算法分析 的需求,无需学习特定的编程语言,只需基于主流的openCypher图形查询语言,即可完成复杂的查询任务。在某些 金融 场景,用户甚至无需输入图形查询语言,使用自然语言即可进行快速检索。
成本方面,StellarDB采用了多种数据编码和压缩策略,有效降低海量图数据对于存储资源的需求。相较于开源图数据库, StellarDB可使用更少的节点实现更快的查询。 跑在更少的服务器资源上,可极大降低用户的采购、运维、空间及能耗成本及开销,以满足企业“碳达峰”、“碳中和”的需求。
企业级功能方面,StellarDB具备完整的企业级功能,为企业客户设计了多维度的权限控制模型,支持 图级别、标签级别、属性级别 三层权限设置;提供了数据加密和配置掩码规则,保障敏感数据的安全性;提供增量和全量数据备份,以及在线跨集群数据恢复,协助客户保障集群数据完整性;提供安全认证和访问控制,支持Kerberos和LDAP登陆和授权。
产品资质方面,StellarDB 具备自主知识产权, 且已获得图数据库基础能力专项测评证书,可与国产的操作系统和硬件平台兼容。
辅以KG等AI驱动的应用开发工具
实现金融风控全链路支撑
基于图数据库,用户可以在上层开发通用或行业知识图谱,将企业的业务规则、决策智慧沉淀下来,并赋能搜索引擎、推荐系统、实时风险预警等应用系统,实现集团的数字化转型。
以金融监管机构为例, 可实现集团派系知识图谱、产业链知识图谱、担保链知识图谱、反洗钱知识图谱等的构建; 以银行为例,星环科技可以帮助用户构建企业管理关系图谱、小微企业风险事件图谱、 社交 画像知识图谱、供应链知识图谱,从而实现贷后资金穿透管理和风险传递预估; 投资 图谱方面,星环科技可帮助证券、基金、期货企业构建智能投研知识图谱、FOF投研知识图谱、大宗商品知识图谱等,可实现舆情事件的实时接入、风险事件的实时预警及风险传导的可视化。
除以上应用外,图数据库及知识图谱技术也大量应用于可疑团伙发现、产品或服务的精准推荐、社交网络分析、疫情溯源与防控等领域。
图3 星环科技Sophon KG的企业知识图谱界面
星环科技提供用户
从点到线再到面的立体智能分析能力
星环科技为用户串联起了从底层的关系型数据库、大数据平台到中层的图数据库,再到上层知识图谱应用的全栈产品, 实现了从最底层独立的“点”分析到关系的“线”分析再到事件的“面”分析,最终形成行业全面的“体”分析的全栈智能分析赋能。 从点到面再到体的一站式分析工具提供,可以搭建紧密相扣的工作流链路,对于用户而言,能够大量节省开发成本和基础算力,显著提升分析性能。
展开来讲:
(1)“点”: 传统数据分析是利用关系型数据库或不含图数据库的OLAP大数据平台,针对单个实体或属性进行统计分析或机器学习建模,它只能处理单个或多个独立“点”的信息。
(2)“线”: 而当用户想基于点和点之间的关系进行多层关联关系分析时,关系型数据库会遇到多表join的挑战而无法返回结果。此时使用分布式的图数据库即可在快速返回海量的大图分析结果,实现对“线”的分析。
(3)“面”: 当错综复杂的线形成一个网络时,我们需要使用属性图、图建模的技术来对复杂网络进行分析,如提取网络中的特征或模式,并固化这些模式和知识,泛化至业务系统当中,形成企业的知识资产。
(4)“体”: 最后,当遇到多层次、多维度的网络时,有异构图分析能力的知识图谱可以帮助企业形成语义网络,比方说将企业上下游、舆情信息等多源异构的网络进行整体分析,形成对某一标的的价格走势预判,最终实现对“体”的分析。
图4 星环科技从“点”到“面”的立体智能分析能力
星环科技从点至面的立体智能分析方案,其底层除支持TDH极速大数据平台外,利用联邦计算技术可集成多个异构数据源、跨平台的数据拥有方,做到在不直接进行数据交换的前提下,获得全体数据的计算结果。此外,基于多模型的大数据技术架构, 可通过8种独立的存储引擎支持业界主流的10种存储模型, 对于用户来说,可对关系型数据、文本数据、地理空间数据、图数据、时序数据等进行统一的存储、查询计算和融合分析。
我们相信,图数据库作为Gartner发布的2021数据分析十大技术之一,将以极大的潜能挖掘海量数据的无限价值,并辅以知识图谱等AI驱动的开发工具,从图计算及图模式探索中不断沉淀新的业务规则,实时赋能上层业务。随着图计算和处理技术的不断普及,企业能通过掌握从“点”到“线”至“面”的立体智能分析能力,不断积累知识和业务深层规律,最终构成企业坚实的业务壁垒。