大数据挖掘的粒计算理论与方法

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

 粒计算—— 大数据挖掘的新途径

 粒计算是专门研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和工具的学科,是当前智能信息处理领域中一种新的计算范式。 从人工智能角度来看,粒计算是模拟人类思考和解决大规模复杂问题的自然模式,从实际问题的需要出发,用可行的满意近似解替代精确解,达到对问题的简化、提高问题求解效率等目的。从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率。粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容。大数据的表现性态、 大数据挖掘 面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面。

 1、大数据经常具有多层次/多粒度特性

 1990年,我国著名科学家钱学森先生在其论文《一个科学新领域|| 开放的复杂巨系统及其方法》 中就指出: \只有一个层次或没有层次结构的事物称为简单的系统, 而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统。任何一个复杂系统都是一个具有层次结构的系统"。Friedman 等在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性。Clauset 等在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构。Ahn等则专门研究了大数据的多尺度复杂性。著名社会网络科学家Watts 在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求。大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生。这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性。

 2、挖掘任务通常呈现多层次/多粒度特性

 数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性。比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品。这就使得挖掘任务可能同时面向不同层面、不同方面。挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制。

 3、大数据挖掘要求算法具有高效近似求解性

 在2012年出版的大数据著作《大数据时代: 生活、工作与思维的大变革》 中指出:大数据意味着所有数据。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。因此,大数据挖掘首先要解决\大数据能算的问题",这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略, MapReduce 正是基于这种策略在大数据管理方面的实践结果。

 基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标。

 大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求, 大数据 的巨量增长性对在线挖掘技术提出了严峻挑战。与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对\独立同分布假设" 的破坏使得追求问题的最优/精确解变得几乎不可能,迫使我们转向寻找问题的满意近似解。另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解。

 综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性。鉴于这一认识,可以推测: 粒计算将为大数据挖掘提供一条极具前途的崭新途径。

 现状分析

 早在1979 年, 美国著名控制论专家Zadeh 就首次提出了模糊信息粒化问题。他认为,人类认知能力可概括为粒化(granulation, 全体分解为部分)、组织(organization, 部分集成为整体) 和因果(causation, 因果的关联) 3 个主要特征。 1985 年, Hobbs 提出了粒度(granularity) 的概念。在20 世纪90 年代初,我国的张钹和张铃 在其专著《问题求解理论及应用》中特别指出\人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题。人们不仅能在不同粒度世界上进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难"。这种处理不同粒度世界的能力,正是人类问题求解的强有力的表现。Yager 和Filev 进一步指出\人们已形成了一个关于世界的粒度观点,在此观点下,人类的观察、度量、概念化和推理都是在粒度意义下进行的"。这些观点都认为,粒化作为人类认知的重要特征之一,对复杂数据的知识发现具有重要作用。1997年,Zadeh 第一次提出了粒计算(granular computing) 的概念。随后国际上许多不同领域的学者都开始关注和研究这个问题,其逐渐形成了智能信息处理中一个新的研究方向。

 自粒计算这一概念提出以来,大量关于粒计算研究的学术论文相继发表,在国际上形成了专门的研究群体。近年来,国际上两个系列会议\IEEEInternational Conference on Granular Computing" 与\International Conference on Rough Sets, Fuzzy Sets,Data Mining and Granular Computing" 每年举办一次。 在国内,2001年以来,粒计算的研究成果集中在每年举办的\中国粗糙集与软计算学术会议" 上报道和交流。由于粒计算在国内的迅速发展,2007年开始每年举办\中国粒计算学术会议"。短短十余年的发展已经凸显出它对信息科学特别是对计算机科学的作用和影响。粒计算已逐渐成为数据分析领域的新分支,在数据粒化、多粒度模式发现以及粒度推理等方面的研究已经取得了一些重要的进展。

 1、数据粒化研究进展

 数据粒化是基于粒计算的数据分析的基础,是按照给定的粒化策略将复杂数据分解为信息粒的过程。 根据不同的数据建模目标和用户需求, 可以采用多种多样的粒化策略。单纯依赖数据的常用粒化策略大多可以归结为基于数据二元关系的粒化策略,其本质是将满足预先定义的二元关系的两个数据样本分配到同一个数据粒中。 诸多粒化策略通过使用等价关系、相似关系、极大相似关系、模糊等价关系、模糊相似关系、邻域关系、优势关系等二元关系可将数据粒化为相应的二元粒结构。再如,图数据中的连通分支,极大全连通子图、各种路及圈,以及树中的子树、链等。基于聚类的粒化策略尽管本质上也是依赖于二元关系,但它是在目标函数引导下, 通过一个迭代寻优过程学习得到隐含于数据中的簇团结构。聚类可以被理解为数据簇团结构的发现方法,也可以被理解为一种数据粒化策略。聚类粒化具有很强的数据针对性,如针对高维数据,其代表性方法有基于子空间的聚类、联合聚类以及基于超图的聚类等;针对复杂数据,Brendan在Science发表了一个基于消息传递的聚类算法,成功应用于人脸图像聚类、基因外显子发现、手稿中心句识别以及最优航线搜索等方面;针对多模态数据,Ahmad等提出了一种数值型和符号型并存的多模态数据的K-Means 算法。 Huang提出了用于解决符号数据聚类的K-Modes 算法,并将其与K-Means 算法相融合用于多模态数据聚类。 此外,在图像处理领域里,有一类通过提取图像本身的纹理、边缘、灰度值等特征,并将其作为多模态特征来进行图像数据的粒化方法。

 目前的数据粒化策略与方法很少考虑适应大数据的可计算性需求,多是从单一模态特征出发,在不同模态特征之间设置权重参数或者简单地对结果进行集成,并没有从本质上进行融合,不能够保证其语义一致性或语义相关性,无法有效解决具有多模态特征的数据协同粒化问题。

 2、多粒度模式发现研究进展

 多粒度模式发现与融合是粒计算框架下复杂问题求解的内在逻辑要求。所谓多粒度,可以是多个数据子集、表示空间的多个子空间、多个不同的模态变量集、也可以是问题求解过程中的多个局部或中间结果,它对应于问题的多个角度、多个局部或多个层次。为了获得整体数据集或问题的全局解,需要对多个单一粒度上发现的模式进行融合。尽管没有使用多粒度这一术语,国内外学者已经针对医学图像分析、网络、视频语义分析、标注和检索、情感识别等领域的多模态问题开展了融合研究, 主要考虑从不同模态的数据中分别提取特征,构成多模态特征空间, 发展具有多模态特征的模式发现理论与方法。 目前的研究主要集中在3 个方面: 基于多核学习的多模态数据分类,基于多字典协同表达的多模态数据建模 和基于深度学习的多模态数据融合。比如,在多模态视频挖掘中, Hershey 将视觉和音频从视频中提取出来, 利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘。Darrel 等则提出了一种基于参数模型的新方法。这些多模态融合方法主要分为乘积融合、线性融合、非线性融合等。在多模态Web 挖掘中,网页上丰富的图片、音频、视频以及文本等多种模态信息构成了典型的多模态数据挖掘问题。一些学者提出了语义网方法来描述单词和图片之间的相关性,并利用文本信息帮助进行图像的检索。多模态图像检索系统iFind 提出了一种同时利用文本和图像视觉信息的相关反馈算法。 胡清华 系统地研究了数值型数据和符号型数据并存的多模态数据的粗糙集方法,并将粗糙集方法推广应用到了太空天气预报、风力发电故障识别等领域。Hwang 等研究了多模态数据的聚类问题,将图像数据中的纹理、灰度值、线条等提取出来作为多个模态来研究。Wang等将网页中的图片和图片周围文字分离成两类事物,通过两者之间的关联矩阵将同一事物中的相似度传播到另一类事物中,得到了更为精确的图片之间的相似度。Qian等系统提出了多粒度粗糙集理论,通过挖掘不同粒度下的隐含模式来对目标概念与目标决策进行融合学习,用于更加高效合理地进行决策。然而目前的研究多集中在基于聚类的多粒度结构发现以及基于表示空间的多粒度多模态分类问题,还很少考虑基于多粒度的分类、回归和相关关系分析等数据分析任务,尤其是多模态数据的分层多级的分类回归分析较少有人涉及。 此外,多个粒化结构之间的关系研究也鲜见报道,它也应是多粒度理论与方法中的重要研究内容。

 3、粒计算推理研究进展

 推理是人类智能中的重要能力之一。 推理是一种形式逻辑, 是用于研究人们思维形式、规律以及逻辑方法的科学。 推理的作用是可从已知的知识得到未知的知识。 粒计算推理指的是利用已知的信息粒或粒空间进行演绎的逻辑方法。

 在粒计算领域中, 已经有一些关于粒计算推理的研究。Yao对粒计算的基本问题、基本方法进行了系列研究, 通过采用决策逻辑语言(DL- 语言) 来描述论域的粒度, 构建粒度世界的逻辑框架; 将邻域系统、区间分析、粗糙集理论和粒计算进行融合,对粒计算中的信息粒化和概念近似问题进行研究;利用所有划分构成的格研究了一致分类学习问题。刘清等基于粗糙集研究了用于逻辑推理的决策规则粒和粒语言。Thiele 于1998 年发表了\词计算理论的语义模型" 和Zadeh发表的论文促进了词计算理论的发展,这些理论旨在解决利用自然语言, 进行模糊推理和判断, 以实现模糊智能控制。在这些研究中,不同层面的知识可以通过不同程度的模糊信息粒来刻画,然后利用模糊逻辑进行推理和计算,它对于复杂信息系统的模糊推理和控制尤其重要。针对复杂生物网络,Daphne等提出了概率图模型利用特征之间潜在的相关性来研究粒度之间的推理原理,已经形成了数据分析领域中一种重要的研究方法。Friedman 用概率图模型对细胞网络进行了推理, 研究了不同粒度层次意义下的细胞网络结构。Andrew 等从多层次、多结构角度出发研究了 数据分析 中的回归问题。Fan等 则利用多结构分类思想对多层次图像语义挖掘问题进行了深入研究。 1990 年, 张钹和张铃提出了商空间理论,专门研究不同粒度之间的关系、合成、综合、分解和推理, 其最重要的性质是同态原则, 即保真原理(或保假原理)。

 尽管在粒推理方面已经取得了一些有益的研究成果, 然而已有方法主要讨论单一粒度下的粒化推理问题,很少有人考虑多粒度、跨粒度的推理,特别是缺乏关于多模态数据粒推理的有效方法,而多粒度、跨粒度推理恰恰是解决大规模复杂决策任务的重要手段。

 几个科学问题

 大数据的大规模、高维、多模态、多源异构、快速增长等特征对信息粒化、模式发现与融合、推理等粒计算理论与方法的核心要素提出了严峻挑战,涉及一些重要的科学问题。

 1、信息粒化

 数据粒化就是将数据进行分解,拟或还需将分解的局部数据按照分析的要求重新组织。它可能是按照数据的某些自然属性简单分解,也可能是按照问题求解所基于的框架、理论、方法和技术的特点对局部数据的内涵要求进行数据分解与组织。粒化是基于粒计算框架求解复杂问题的基础。大数据的规模性主要体现在样本规模的海量性和特征规模的高维性两个方面;而大数据的复杂性是其表征的巨系统复杂性在数据层面的反映,主要表现在数据的多源性、多模态性、混杂性以及多数据输出源本身的结构复杂性。大数据的大规模性、复杂性对大数据挖掘的可计算、复杂问题求解、挖掘结果的理解与应用提出了巨大挑战,这些挑战要求我们对大数据从一个、多个或者从某个具有结构的参照框架等视角进行粒化。

 2、多粒度模式发现与融合

 多粒度模式发现(融合) 是大数据超大规模性、多模态性、混杂性特征的自然要求,也是粒计算框架下复杂问题求解的内在逻辑要求。大数据粒化后, 样本视角下每个同质数据粒上的模式发现问题尽管可以用现有的方法解决,但全局数据上的模式发现需要在融合策略指导下进行。 对多个异质数据粒(对应于不同特征子空间所抽象出的概念层次、不同模态以及参照框架下的数据粒化结果) 上的模式发现问题,自然地要求保证发现过程的语义一致性或语义关联性,从而保证全局融合结果的正确性和强可解释性。

 3、多粒度推理

 不同于传统机器学习解决单一的决策任务,基于大数据的决策往往涉及复杂大系统的多任务多目标的分级决策。基于决策树、神经网络或者支持向量机的决策模型难以有效表示和建模多粒度的复杂决策任务。

 人机协同的多粒度推理

 大数据挖掘的一个重要目的是用户对数据的理解,而且是多粒度多视角的理解,对于科学大数据建模而言,这一点尤其重要,在一定意义上决定了挖掘算法的实用性,自动建模算法只是领域专家理解数据的工具和推理的辅助手段。因此开发用户友好的、甚至人在回路(man-in-loop) 的推理模型就显得极为重要。粒计算契合了数据理解的需求,以人们容易理解的信息粒子(基本概念) 作为计算单元和推理的原子概念,以图模型为基本表示工具实现多粒度信息结构提取和推理,此计算范式容易将人们的先验信息引入到模型结构中,设计人在回路的、人机协同的建模和复杂问题求解机制。人机协同的多粒度推理将为大数据环境下的复杂决策任务提供快速高效的求解策略, 也为不同层次决策者提供大数据的多粒度理解和多粒度推理的灵活机制与算法。

 结语

 本文论证了大数据挖掘的特点与粒计算理念的高度契合性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;通过对研究现状的详细分析, 最后也指出了面向大数据挖掘的粒计算理论与方法在未来值得关注的一些重要问题, 包括信息粒化、多粒度模式发现与多粒度推理等方面。本文主要是对大数据背景下粒计算理论与方法的未来研究进行了一些粗浅的思考,希望为大数据挖掘的粒计算理论与方法体系的构建起到积极的推动作用。

 ( 内容出处:梁吉业, 钱宇华, 李德玉,等。 大数据挖掘的粒计算理论与方法[J]。 中国科学:信息科学, 2015, 45(11):1355-1369。)

责任编辑:陈近梅

随意打赏

数据挖掘与大数据数据挖掘工程师数据挖掘技术数据挖掘
提交建议
微信扫一扫,分享给好友吧。