Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习
金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技术的跨界合作与国际交流,建立和完善大数据领域的技术创新平台,集聚整合创新资源,加强产学研用结合,突破一批关键共性技术并实现产业化,促进大数据产业的快速发展,为培育和发展战略性新兴产业提供驱动力。
在活动上,清华大学杰出访问教授、美国三院院士、机器学习先驱Michael I.Jordan做了题为“大数据时代下的安全实时决策堆栈与增强学习”的主题分享。
演讲精华内容经数据派THU整理如下:
Michael I.Jordan:人们常常提到人工智能,并认为机器学习是人工智能的一部分,我并不这么认为。我认为机器学习是统计学和计算机科学的一部分,对于我来说,大数据还有数据科学比你们现在经常听到的“人工智能”一词更重要。每一个计算机系统都需要利用数据,需要适应数据库,需要诊断自己的系统,并且给每一个决策计算置信度。这些任务是计算机之前从未做过的。数据库接收一个请求并给出解答,之后你需要根据这个解答计算置信度,因为它总是不确定的。
有一个说法是,工业界产出软件,而主宰工业界的不是中国而是其他国家,这个说法是不对的。目前世界上最主流的软件并不由工业界产出,而是学术界。因此,像清华大学这样的学术机构不仅仅是这个领域的参与者,更能够成为这个领域的领导者。最主要的原因在于开源软件的出现,开源软件起始于Linux,如今已遍布在计算机科学的各个领域。一些世界上比较好的软件已经作为开源包存在于GitHub上,供所有人免费获取并共同搭建。因此大部分公司,尤其是小型公司,他们信赖这些软件,他们知道使用这些软件永远不会被收取费用。他们如果需要一些新的特性,他们也可以参与软件的编写,这是一个很大的改变。主要由我们AMP实验室(2011-2016年)研究生研发的Spark平台在大数据领域的使用比工业界推出的其他软件有更广泛的使用。
我认为在中国也是一样,大公司会意识到即使竞争非常激烈,参与开发人人都可以使用的软件系统是更明智的选择,它将促进中国的发展,提升世界范围内的参与度。更值得注意的事实是,在学术界一个由二十到四十人组成的实验室便可以主导世界软件产业的开发。如今我们在AMP实验室所做的五年项目已结束,我们又成立了新的实验室。新实验室得到的支持主要来自工业界(包括一些中国的公司,如华为)。
尽管AMP实验室贡献了许多有意义的项目,但它并不是我们所期待的未来。我们眼中的未来每分每秒都在产生的实时数据,它需要被及时地处理,因此需要实时决策,比如自动驾驶、医疗预算、财经预算等。收集庞大的数据并用几个小时去处理它不是科学前沿,数据的价值往往与它所支持的决策共同体现,对实时数据进行决策是我们实验室正着眼的话题。那么什么是好的决策呢?快速决策一定比慢速决策好吗?也不一定。快速决策有可能出错,因此我们会考虑风险,我们会将风险与时间都考虑进来。这是学术界一个新的研究领域。
从前,风险是在统计学、经济学中研究,而时间概念则在计算机科学、电气科学中考虑,将这两个传统的问题放在一起来考虑具有非凡的意义。权衡风险与时间并不简单,并且至今尚未被解决。我们拥有许多数据,有些是最新且相关的,有些却不是,这一点给决策造成了困难。什么叫做相关?将数据保存为可以预测的形式,不仅仅是时间上的预测,而且包含了数据相关性的预测,这是一个很复杂的概念。过去的十年,公司收集的数据往往是普适的,他们提供的服务对于所有人都是相同的。而今天,我们收集的数据来自每一个不同的人,对于每个个体,我们希望提供个性化的服务。这种决策是非常困难的,因为我们要用计算机建立成千上万的模型,需要将数据整合再分开,并且对每一个人都需要提供好的预测,这个问题需要学术界来解决。总而言之,我们考虑的事情包括对实时数据毫秒级的实时决策,以及系统安全性问题。
在实时决策中我们要解决如下三个问题:
首先,处理海量的数据并及时给予反馈难度很高,数据量越大,实时性就越难达到。我们需要大数据量来提高决策的准确性,但与此同时决策速度却会变慢。那我们该怎样解决这个问题呢?我们需要构造流水线,来快速地搭建模型、模型服务并更新模型。我们想到运用增强学习算法,这一算法在自动驾驶中已用到。尽管增强学习的思路与技术都具备,但目前它尚未带来我们预期的突破。Alpha Go运用的就是增强学习算法,有人认为它是一个重大突破,但我不这么认为。因为它并没有解决目前的实际问题,它只是一个游戏,你可以去模拟这个游戏平台,你很清楚地知道这盘游戏的布局。而现实生活并非如此,我们永远不知道那个角落有什么,永远不知道后面会发生什么。你无法模拟现实生活,根据这一状态来预测下一状态的事情。因此,我们确实希望构建增强学习系统,来看我们每一步是否有意义,但目前我们尚无手段来证明这件事。
接下来一个非常重要的问题是,承认“我不知道”的能力。目前的机器学习系统在这一点上表现得并不好,它总是说它知道。就像你们去医院寻求治疗,医生很确定地告诉你你的心脏有问题需要手术一样,你知道这其中肯定是有不确定性的,但他并不给你第二个答案,这是非常危险的。
最后,可解释性。人们希望得到的答案往往不是简单的是或否,而希望得到进一步的解释,但目前的系统尚未做到这一点。因此我们的目标就是解决这些问题并将开源平台提供给大家,当然我们不认为这件事是可以由我们独自完成的,它是每一个人都面临的挑战。
现在,我来介绍一下在过去的半年里我们所做的工作。
首先是SRDS,它随着时间不断演化。它基于AMPLab栈,并关注新的事情。我们有一个轻量级的微型核,用于调度、目标存储与优化,它是开源的。我们现在致力于研究一种在大数据流下不需要等待上一个节点处理完再做接下来事情的架构,相关资料可以在网上找到。
Clipper是模型服务的一项工程。模型服务是一项很重要的任务,我们常常需要花费好几天来训练一个与时机、环境、人都契合得很好的模型。以往我们很容易能得到单一的模型,将它复制多份即可,但现在我们要搭建的不再是单一模型,而是个性化的模型。每个人要得到不同的模型,那么你该如何组织、服务,该如何整合人群信息来得到针对每个人的好模型,这是一个很难的挑战。
我们现在来谈谈Ray,这是我主要参与的工程。它用到了增强学习系统,拿一个机器人为例,我们现在要建立一种规则,根据当前环境来判断接下来的举措。那我们现在给出一个规则,让机器人做一个动作并观察会发生什么,我们通过它的表现来调整规则,从而让它表现得越来越好,这是增强学习最基本的想法。增强学习系统不是超智能系统,而是在不断尝试多种可能性后选择对事情发展更有利的举措,它是将搜索与学习结合的系统。机器学习中没有任何一件事是真正关乎智力的,它只是用梯度下降搜索或尝试各种可能性。所以尽管人们常提到人工智能,我只能说我们在构建机器学习系统,它做着有限的模式识别以及增强学习之类的工作。不过尽管这些事情是有限的,机器学习正在不断地改变世界。
在监督学习中,我们拥有一堆由人工标注的训练数据,而在增强学习中,我们没有这些标签,取而代之的是我们告诉这个系统它们做的决策好与不好,然后看这个系统可不可以在没有标签的情况下自己学得很好。就比如,要控制一个小人跑动,我们需要控制它的每一寸肌肉。但我们不会建立一个监督学习系统告诉这个小人每一步该如何控制肌肉,我们只会告诉它从这儿运动到那儿是好的,否则是不好的。
我们该怎么做这件事呢?这儿有许多算法,我们通常用“尝试”规则,看这么尝试的效果是否好,Alpha Go的原理便是如此。现在我们站在一个计算机科学研究者的角度来处理这个问题,我们要面对的动作空间包含了成千上万的动作,我们用大量处理器同时运算。当其中某些做了不好的尝试后便立即停止,一直等其他的处理器将好的尝试搜索完,这种做法会使问题处理得非常慢。因此我们需要构建一个数据流驱动的系统,一旦某个处理器做出不好的尝试,它可以立刻去做其他的尝试。
关于数据的隐私性方面,这是一个还没有得到解决的大问题,而且相当重要。让我们仔细考虑一下,这其实是一个有关网络安全的问题。我们知道腾讯、百度、阿里都有很大规模的数据,而我(清华大学)作为可以信赖的第三方,你们愿意将数据交给我来处理,根据数据训练之后得到一个效果很好的分类模型。不过可能阿里会认为数据是涉及隐私的,我们不能向你们(清华大学)提供,但是腾讯和百度却认为我们应该交给可信赖的第三方,让他们研究,这样就形成了一种公司之间的竞争关系。最后,阿里也会给我们数据,因为我们确实可以训练出精度很高的模型,而且数据部分会处理加上一些噪声。
不过发给可信赖的第三方的数据可能有好有坏,作为奖励,提供给我们好的数据的机构,我们会把训练的精度高的模型给他们,而那些数据不是很好的机构,会给他们精度一般的模型来作为奖罚措施。问题是,我们如何知道数据好坏,这其实是机器学习领域一个非常简单的问题,我们将所有企业提供的数据来训练,比如最后精度是95%,然后,再单独拿阿里的数据或者是百度的数据训练,如果他们的数据训练的结果是90%,那说明他们给我们提供的数据还不错,如果低于这个值,那可能数据本身是有问题的。
我还有一个想法是最近想出来的,就是推荐系统。现在人们经常谈论的都是机器学习、深度学习在图像、语音方面的识别,然而最早的机器学习的研究是推荐系统,它是非常重要的,例如亚马逊能成为世界上领先的公司之一就是因为它的推荐系统,人们在网上买书,网站推荐给客户他们感兴趣的东西,这样客户可以购买更多的商品;还有推荐电影,我们可以向所有人去推荐同一部电影,每个人去电影院观看,可是对于推荐餐馆这件事,就不能这么做了,因为这样做很多人都去同一家餐馆,要排很长的队,很可能还没有空位,但现在如果我们有一个APP,它负责推荐电影院周围的餐馆,这样向潜在的客户发出邀请,可以保证餐馆的盈利和推荐系统的高效。
最后,再次祝贺清华大学大数据系统软件国家工程实验室成立,我非常期待它同世界其他实验室保持持续的交流合作,也感谢大会邀请我来做此次报告,谢谢!
责任编辑:陈近梅