北邮石川教授:「异质信息网络」研究现状及未来发展
雷锋网 AI 科技评论按:自韩家炜和 Philip S Yu 等人在 2009 年提出「异质信息网络」的概念以来,异质信息网络的研究受到越来越多国内外学者的关注和研究。那么什么是异质信息网络?对异质信息网络的研究现状和未来发展方向是什么?
为了收集这方面的信息,雷锋网 AI 科技评论注意到 北京邮电大学的石川教授 及他的学生专门收集和整理了近十年来国内外在异质信息网络方面的 经典研究文献和相关数据集 的资料。这些资料对无论是刚接触数据挖掘的学生还是研究多年的老师,应该都有极大的帮助。
而另一方面,石川教授作为国内数据挖掘(尤其是异质信息网络)领域的青年学者,常年与 Philip S Yu 等人进行合作研究,做出了许多关于异质信息网络的重要研究工作。
藉此之故,雷锋网 AI 科技评论有幸邀请到石川教授向我们详细介绍了 异质信息网络基本的概念、现状以及未来发展的方向 ,同时石川教授还介绍了他们 收集的资源 和北京邮电大学 数据挖掘与机器学习课题组的基本情况。
本文为雷锋网 AI 科技评论向 石川教授 的约稿,相关内容已经发表在 《中国计算机学会通讯》2017年第11期 ,雷锋网 (公众号:雷锋网) AI 科技评论获其授权发表。
石川 , 北京邮电大学计算机学院教授、博士研究生导师、 智能通信软件与多媒体北京市重点实验室副主任 。主要研究方向: 数据挖掘、机器学习、人工智能和大数据分析。近五年来,发表高水平学术论文 40 余篇,包括数据挖掘领域的顶级期刊和会议 IEEE TKDE、ACM TIST、KAIS、DKE、KDD、SDM、EDBT、ECML、CIKM 等。在 Springer 发表异质信息网络方向第一部英文专著。申请国家发明专利十余项,国际专利 1 项,已授权 2 项。获得 ADMA2011 国际会议最佳论文奖、CCF-腾讯犀牛鸟基金及项目优秀奖,并指导学生获得顶尖国际数据挖掘竞赛 IJCAI Contest 2015 全球冠军。获得北京市高等学校青年英才计划支持。
异质信息网络研究现状及未来发展
一、引言
现实生活中的大多数实际系统是由大量相互作用、类型不同的组件构成,当前的分析方法通常将其建模为同质信息网络(Homogeneous information network)。采用同质网络的建模方法往往只抽取了实际交互系统的部分信息,或者没有区分交互系统中对象及关系的差异性,这些做法都会造成信息不完整或信息损失。
最近,越来越多的研究人员开始将这些互连的多类型网络化数据建模为异质信息网络 [1](Heterogeneous information network),并且通过利用网络中丰富的对象和关系信息来设计结构分析方法。与广泛研究的同质信息网络相比,异质信息网络包含全面的结构信息和丰富的语义信息,这也为数据挖掘提供了新的机遇与挑战。
这里我们简单介绍这种建模方式的基本概念、分析方法和未来发展。
[1] 这里我们将 Homogeneous / Heterogeneous information network 翻译成为同质/异质信息网络。虽然有些学者将其翻译为同构/异构信息网络,但是这种翻译容易和通信网络中的同构/异构网络的概念混淆。另外,同质/异质更能反映网络中节点和边的类型和性质不一样这种特性。
二、基本概念
我们先介绍一下异质信息网络中的基本概念。
2.1 概念
异质信息网络 被定义为一个有向图,它包含多种类型的对象或者关系,每个对象属于一个特定的对象类型,每条关系属于一个特定的关系类型。 网络模式 (Network schema)是定义在对象类型和关系类型上的一个有向图,是信息网络的元描述。
图1 由文献数据构建的异质信息网络
图 1(a) 是一个由科技文献数据构成的典型异质信息网络实例。该网络包含三种类型的对象:论文、会议和作者;每篇论文有到作者和会议的链路关系,每条链路属于一种关系类型。
图 1(b) 是该网络的网络模式,描述了文献网络包含的对象类型(会议、论文、作者)和相应的关系(撰写/被撰写、出版/被出版、引用/被引用)。
异质信息网络分析中一个重要的概念是
元路径
(meta-path)。元路径是定义在网络模式上的链接两类对象的一条路径,形式化定义为
,表示对象类型之间的一种复合关系 R=R1*R2*......*Rl,其中 * 代表关系之间的复合算子,Ai 表示对象类型,Ri 表示关系类型。
图2 由文献数据构建的异质信息网络
元路径不仅刻画了对象之间的语义关系,而且能够抽取对象之间的特征信息。图 2 显示了文献网络中两个元路径的例子,分别简记为「APA」和「APVPA」(A、P、V 分别表示作者、论文和会议类型)。可以看出,基于不同的元路径,对象之间的语义关系是不同的。元路径「作者-论文-作者」(APA)表示两个作者合作撰写了同一篇论文;元路径「作者-论文-会议-论文-作者」(APVPA)表示两个作者在同一会议上发表了论文。链接两类对象的不同元路径表示了不同的语义关系和不同的链接网络,这也造成了不同的分析结果和不同的特征表示。
实际上,大多数真实系统都存在多种类型对象的相互交互。例如,社交媒体网站(如微信和微博)包含多种类型的对象(如用户、帖子和标签)和这些对象之间的复杂交互(如用户之间的朋友、跟帖、通信等关系,用户和帖子之间的发布关系)。医疗系统包含医生、病人、疾病和设备等对象类型以及他们之间的交互。一般来说,这些交互系统都可以被建模为异质信息网络。
传统的同质网络建模方法只是抽取了这些真实交互系统的部分信息,而且这些信息往往也可以从异质信息网络中推导出来。例如,经常分析的作者合作网络可以通过元路径「APA」从上述科技文献网络中得到。
2.2 为什么要进行异质信息网络分析
作为数据挖掘的重要研究方向,在过去的近20年里,网络分析方法已经被深入研究,并且应用于很多数据挖掘任务,在这些工作中往往将网络化数据建模成同质信息网络。然而,异质信息网络的一些独特特征使得异质信息网络分析变得十分重要。
首先,异质信息网络分析是数据挖掘的新发展。 近年来,大量涌现的社会媒体网站包含许多不同类型的对象和对象之间复杂的交互。将这些相互作用的对象建模为同质网络是很困难的,然而使用异质信息网络为其建模却是很自然的方式。特别的,大数据的一个显著特征是数据的多样性,作为半结构化的表示方法,异质信息网络可以有效建模和处理大数据中复杂多样的数据。
其次,异质信息网络是融合更多信息的有效工具。 与同质网络相比,异质网络可以融合更多类型的对象及其之间复杂的交互关系,也可以融合多个社交网络平台的信息。
最后,异质信息网络包含丰富的语义。 在异质网络中,不同类型的对象和链接共存,它们具有不同的语义含义,在数据挖掘任务中考虑语义信息将导致更细微的知识发现。同质网络中的大多数方法并不能直接应用于异质网络中,因此在异质信息网络中发现有趣的模式是十分必要的。
三、研究现状
3.1 研究现状概述
异质信息网络为更好地分析网络化数据提供了一种新的研究模式,同时也给许多数据挖掘任务带来了新的挑战。很多基于异质信息网络的数据挖掘问题已经被广泛研究,图 3 是对过去 6 年这一方向相关研究工作的近 200 篇论文按照研究问题分类的分布图。从图中可以看出,异质信息网络已经广泛应用于主要的数据挖掘问题,特别是相似性度量、聚类、分类、链接预测、推荐等任务。
图3 异质信息网络分析相关论文的分布情况
异质信息网络建模的优势在于整合更多信息和包含丰富语义,这同时也造成了异质信息网络分析的难点:
如何有效利用异质信息和探索丰富语义。
作为有效利用异质信息和探索语义的工具,元路径被广泛应用于异质网络分析。例如,PathSim 利用对称元路径抽取两个节点之间的连通路径来度量二者的相似性,这样不仅利用到了相关的异质信息,而且体现了节点和边的丰富语义。很多机器学习技术都可以应用到异质网络分析中,例如随机游走模型、主题模型、矩阵模型和概率模型。各类信息也都能够整合到异质网络分析中,例如属性信息、文本信息和用户指导信息。
图 4 从网络结构和语义探索两个角度,总结了该领域的一些典型工作。沿着 X 轴,网络结构变得更加复杂;沿着 Y 轴,语义信息变得更加丰富。
图4 从网络结构和语义探索两个维度对异质网络典型工作的总结
例如,PathSim 可以处理星型模式网络,并使用元路径挖掘语义关系。SemRec 在基本元路径上增加了链接的权值约束,以在带权异质网络中探索更微妙的语义信息。从图中我们可以发现,大多数研究都集中在简单网络结构(例如二分或星型模式网络)和基本语义探索(例如元路径)上,
未来在利用更强大的语义探索工具分析更复杂的异质网络方面还需要做更多探索。
四、未来发展
虽然异质信息网络已经应用于很多数据挖掘任务,但它仍然是一个年轻而且快速发展的研究领域。在这里我们简单讨论一下未来的研究方向。
4.1 更加复杂的网络构建
当前研究大多假定异质信息网络是明确定义的,网络中的对象和关系是清晰的。然而,在实际应用中,从真实数据构造异质信息网络会遇到很多挑战。对于关系数据库之类的结构化数据,构造异质信息网络比较容易,然而即使是在这种网络中,对象和关系也可能具有噪声,比如会出现对象重名或关系不完整等问题;对于像文本、图像等非结构化数据,如何准确抽取出相应的对象和关系,进而建立更加完善和准确的异质信息网络也将面临更多挑战,在实践中会用到诸如信息抽取、自然语言处理、图像处理等各种技术。
4.2 更加强大的分析方法
在异质信息网络中,对象可通过不同的方式组织在一起。星型模式是广泛使用的异质信息网络类型,例如前面介绍的科技文献网络。之后,又出现了带环的星型模式和多中心网络等网络模式。
实际应用中,网络化数据通常更加复杂和没有规律性。某些实际网络中的链路会包含属性值,而这些属性值可能包含重要的信息,这样就构成了带权异质信息网络,例如前面介绍的电影网络。另外一些应用中,用户可能存在于多个异质网络,这时需要对齐不同网络中的用户,有效融合不同网络的信息。还有很多网络数据,例如知识图谱,包含有很多种类型的对象和关系,很难用简单的网络模式来描述。这种丰富模式(schema-rich)的异质网络中也出现了很多新的研究问题,例如多种类型对象关系的管理以及元路径的自动产生等。这些复杂的网络化数据,给异质信息网络建模与分析提出了更多的机遇和挑战。
异质信息网络中的对象和关系包含着丰富的语义信息,而元路径可以捕捉这种语义信息。异质信息网络上的很多数据挖掘任务是基于元路径进行研究的,但是元路径在某些应用场景中并不能捕捉到精细的语义信息。例如,“作者-论文-作者”路径表示了作者之间的合作关系,但却不能描述特定条件下(例如KDD领域)的合作关系。为了克服这个不足,很多研究者提出了受限元路径、带权元路径、元结构等概念扩展元路径的语义抽取能力。针对更加复杂的网络结构(如知识图谱),如何设计更加灵活精细的语义探索工具仍然需要进一步的研究。
近些年出现的深度学习在图像、自然语言等高维复杂数据处理上展现了优异的特征抽取能力,因此可以利用深度学习方法处理异质网络数据。当前深度学习和表示学习已经开始用于网络的结构特征表示。异质网络中包含不同类型的节点和边,而且元路径体现了丰富的语义信息,这些特征使得异质网络的特征表示学习表现出很大的不同。异质网络的表示学习对异质网络分析提出了新思路,也为结构信息与其他模态信息融合提供了新途径。
4.3 更大数据的处理
为了展现异质网络建模的优势,我们需要在更广泛的领域中对大型网络化数据设计实用的数据挖掘算法。多样性是大数据的重要特征,异质网络是处理大数据多样性的有效方法。然而,构建一个真正的基于异质网络的大数据分析系统也是具有挑战性的工作。实际的异质网络是巨大的,甚至是动态的,所以它通常不能存储在内存中直接处理。由于用户往往只对一小部分节点、链接或子网络感兴趣,我们可以根据用户需求,从现有网络中动态地提取子网络进行分析。另外,设计基于异质网络的快速算法和并行算法也是亟需研究的内容。
其他一些研究方向也值得关注。相比于学习大数据的深层特征的深度学习方法,最近兴起的广度学习(broad learning)整合不同类型的多个数据源进行融合学习,并在一些应用中取得了显著效果。由于异质信息网络是大数据时代整合不同类型数据的天然工具,因此结合异质信息网络研究广度学习方法不仅会推动新的机器学习方法的发展,而且为解决大数据的多样性提供新的思路。针对具体问题的异质网络分析系统也是重要发展方向。2017年KDD的最佳应用论文利用异质网络和元路径构建和描述Android手机的APP应用和API调用的丰富交互,并将其用于恶意软件检测。这也为采用异质信息网络解决实际问题带来有益启示。
五、结论
近年来,由于异质信息网络包含全面的结构和丰富的语义信息,采用异质网络建模和分析的研究大量涌现。本文对这个发展快速的领域进行了一个简要的介绍,希望研究者更好地了解异质信息网络分析的基本思路和特点,能够采用这种模式对实际的网络化数据进行建模和分析。
整理异质信息网络中有关资源的初衷及资源的结构
石川个人主页:
http://shichuan.org/ShiChuan_ch.html
异质信息网络资源:
http://shichuan.org/HIN_topic.html
为了方便对这一领域感兴趣的读者更好地了解异质信息网络分析的整体研究情况,我们收集了从数据挖掘权威 Jiawei Han 和 Philip S. Yu 等人于 2009 年提出异质信息网络的概念以来发表在重要的数据挖掘学术会议和期刊(诸如 KDD、ICDM、WWW、TKDE 等)上的有关异质信息网络分析方面的论文,分别按照论文发表的时间顺序以及论文研究的任务角度对其进行了排列展示。
同时,我们也收集整理了实验室中常用的数据集以及其他相关异质信息网络论文中常用的数据集。实验室常用的数据集主要有 科技文献数据 (ACM 和 DBLP) 、 电影数据 (IMDB 和 Douban) 、 音乐数据 、 社会媒体数据 (如豆瓣网和微博) 、以及 知识图谱数据 (Yago)等等,我们都给出了相关数据集的链接,链接里有相应的数据集说明及下载入口;其他相关异质信息网络论文中常用的数据集,主要包括一些大型数据源诸如 Stanford Large Network Dataset Collection 等,以及常用的经典数据 Aminer 等,也都给出了相应的链接和说明。
课题组介绍
数据挖掘与机器学习课题组隶属于北京邮电大学数据科学与服务中心。该中心是智能通信软件与多媒体北京市重点实验室的核心成员单位。课题组创建人是石川教授,智能通信软件与多媒体北京市重点实验室副主任。
课题组长期专注于数据挖掘和机器学习研究及其在行业数据分析中的应用,参与了 10 余项数据挖掘领域的科研项目,其中主持国家自然科学基金项目 3 项、国家 863 项目子课题 1 项、北京市青年英才计划项目 1 项,北京市自然科学基金 1 项;另外作为研究骨干,参与了国家 973 子课题、基金重点项目、重点研发计划等项目。
在数据挖掘领域的一流国际会议和期刊上发表了 20 余篇论文,包括 IEEE TKDE、ACM TIST、KDD、SDM 等;在数据挖掘领域顶级期刊 TKDE 上以第一作者发表异质信息网络方向的第一篇综述论文,并在 Springer 出版该方向的第一本英文专著。申请发明专利 10 余项,授权 2 项;学生多次获得数据挖掘竞赛奖励,例如获得顶尖国际数据挖掘竞赛 IJCAI Contest 2015 全球冠军等等。
课题组和众多国内外顶尖企业有合作关系。团队成员与腾讯、大众点评等企业有合作关系。一方面,能够了解这些企业的真实需求,也容易从企业获得真实数据;另一方面,能够为论文的研究成果转化提供真实应用环境。另外,也经常和数据挖掘方面的国内外知名学者进行合作交流。
雷锋网特约稿件,未经授权禁止转载。详情见。