实战:利用知识图谱分析企业信息资产威胁(要点+视频)
知识图谱能够把复杂的知识领域通过语义匹配,数据挖掘、信息处理、知识计量和图形绘制显示出来,揭示知识领域的动态发展规律,为研究和决策提供切实的、有价值的参考。
因此,当知识图谱应用于信息资产安全威胁的发现与分析时,能够显著提升发现资产安全威胁的效率和准确率,为企业安全人员的威胁分析提供决策依据。
本次雷锋网硬创公开课,北京数字观星科技有限公司创始人郭亮分享了如何利用知识图谱,对企业信息资产面临的安全威胁,进行构建、绘制、挖掘以及分析的实践经验。
嘉宾介绍
郭亮,北京数字观星科技有限公司创始人,超过20年大型业务信息系统安全运营管理经验,曾担任过国家发改委多个重大技术专项课题的技术负责人。
演讲提要
以下为雷锋网 (公众号:雷锋网) 该演讲提要,要想获取完整内容,请移步视频回放区: http://www.mooc.ai/course/443/learn#lesson/2420。
一、知识图谱的相关概念和构建
1.知识图谱
Google于2012年首先提出了知识图谱(Knowledge Graph)概念,目的在于描述真实世界中存在的各种实体、概念,以及它们之间的关联关系,大幅改善搜索体验。
本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
知识是一个内涵非常丰富的概念;知识广泛存在于社会各个领域。科学知识图谱广义上包括:生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的GIS、模拟人脑的神经网络图、各种金属图谱等。
知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征。
2.知识图谱的3种节点:
实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物组成,此指实体。如图1的“中国”、“美国”、“日本”等。,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。
内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
基于上述定义。基于三元组是知识图谱的一种通用表示方式,即,其中,是知识库中的实体集合,共包含|E|种不同实体; 是知识库中的关系集合,共包含|R|种不同关系;代表知识库中的三元组集合。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。
每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。如下图1的知识图谱例子所示,中国是一个实体,北京是一个实体,中国-首都-北京 是一个(实体-关系-实体)的三元组样例北京是一个实体 ,人口是一种属性2069.3万是属性值。北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。
3.知识图谱的构建
包括3个步骤:
信息抽取,即从各种类型的数据源中提取出实体(概念)、属性以及实体捡的相互关系,在此基础上形成本体化的知识表达
知识融合,在获得新知识后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等
知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理、拓展现有知识、得到新知识。
4.知识样本数据的获取
传统静态知识
主要数据来源:Web of Science
科学文献数据:(SCI) (SSCI)
专利文献数据:德温特创新索引DII
国际会议文献数据:(CPCI)
国内数据库:CNKI、CSSCI、CSCD、万方等
网络数据源:Google Scholar、arXiv、CiteSeerX
动态知识
主要数据来源:事件数据
另外还有Scopus,Science Direct
设备可读取以及可输出的异常数据
4.样本数据的梳理
基于数据进行知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性,不准确或不全面的数据往往造成不精确甚至错误的结果。即使目前最权威、公认质量最高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。
5.数据标准化
为便于可视化,对简单地频次计算的单元数据,标准化常常通过数据间的相似度测量。主要有两大类:一是集合论方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指数和Jaccard指数;二是概率论方法(Probabilistic measure),主要有合力指数(Association Strength)和概率亲和力指数(Probabilistic Affinity)
6.数据分析-简化分析
因子分析以较少几个因子描述许多指标或因素间关系,即把较密切的变量归在同一类,每类变量成为一个因子,以少量的因子反映原资料中大部分信息。
7.在知识图谱的解读过程中,常常需要对图谱进行相应操作,包括浏览、放大、缩小、过滤、查寻、关联和按需移动等。主要从以下几方面着手:网络分析、历时分析、空间分析、突变检测
二、资产和威胁
资产数字化是趋势,每个资产都有其特征;威胁是数字的表征,威胁数据有其特征
三、关联和分析
分三步:
第一步,先把企业开展工作需要哪些关键知识识别出来,找到源头,不管是企业内部的还是外部的,不管是数据库、文档库还是网页,都汇聚起来;
第二步,是通过知识图谱,让系统能“认识理解”这些数字和文字代表的含义,把各个源头的知识抽取出来,把知识和人都关联起来,形成一张知识网;
第三步,让知识围绕业务转起来,实现智能化应用,包括语义搜索、个性化推荐、智能问答、协同研究、决策支持等等
要想获取雷锋网该公开课演讲的完整内容,请移步视频回放区:http://www.mooc.ai/course/443/learn#lesson/2420。
。