蚂蚁金服漆远首谈其AI重大突破及招人计划,期望科技网红少一点
7月22-23日,由中国 人工智能 学会、 阿里巴巴 集团& 蚂蚁金服 主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI2017)将在杭州国际会议中心盛大开幕。
大会开幕前,CSDN独家采访到本届大会程序委员会主席、蚂蚁金服副总裁兼首席数据科学家漆远博士。
本次采访中,漆远博士首次对外批露了日前刚刚完成的一项重大创新—— 把 深度学习 和图模型结合起来,在知识图谱上做相关推理的能力,这在行业应用上绝对是第一次。
此外,漆远博士还谈到了蚂蚁金服目前正紧缺的图像人才,以及蚂蚁金服特别欢迎既懂金融又懂算法的人才。
而谈到即将举办的CCAI大会,漆远更是真性情地说到,“我们以前在国内,网红多了点,真正的这种技术性的会不是特别多。这次CCAI大会,请到了普林斯顿、佐治亚等很多一流的教授,他们是真正的领头羊,真正的高手。“
以下为漆远博士的访谈内容。
来阿里做的三件事
CSDN:阿里在人工智能上的布局,一直是外界关注的焦点。您当时从普渡大学来阿里后主要做了哪几件事?主抓的第一件事是什么?
漆远:在阿里三年时间,简单来说主要做了三件事,一个是分布式机器学习平台,就是大规模参数服务器平台;一个是语音识别;再一个是人工智能平台PAI。应该说这三件事情为阿里在AI方面奠定一个比较好的基础。
来阿里后做的第一件事是 分布式机器学习 ,当时一来就主抓这件事,因为阿里急需这么一个平台,而我自己也比较擅长。
在麻省理工,我当时在《Nature》以第一作者发表的文章,就是用分布式计算来做的,通过机器学习来分析海量的生物数据。
后来到了普渡大学教书,我做了两个项目,一个是通过分布式机器学习算法来分析生物数据,这个跟我来阿里特别相关。另外一个GPU,2008年我开始用GPU来训练机器学习文本分析模型,然后通过计算并行化加速,这个跟我后来的研究也一脉相承。
CSDN:这个分布式机器学习平台用是怎么实现的?
漆远:首先是基于参数服务器,后来我们用到了参数服务器的框架,再后来我们又在上面做了实时学习,开发了深度学习,接着在PS框架做了深度学习框架。这个东西做完之后,有一个简单的指标:百亿的特征,数据做到千亿,参数做到万亿。其实去年有个大公司开源特征规模10亿,数据百亿,参数千亿,这个数据乘以十差不多到我们的级别了。这个其实我们2014年就做了,我们直到三年后才对外公开。
这是一个工业界的算法和业务的结合。这跟学校做的工作相关,但是有很大的不同。这是实打实的,必须稳定,我们把阿里妈妈的特征数直接从2000万提到近百亿,RPM直接提升8%左右,这就意味着上亿的收入提升。
从广告的搜索到推荐到菜鸟等,全集团都在使用这个分布式机器学习平台。
蚂蚁金服的风控、CTR及智能助理
CSDN:这之后您去了蚂蚁金服,蚂蚁金服吸引您的地方是?
漆远:当 时我来阿里面试的时候,就奔着这个了。当时就觉得,蚂蚁金服AI平台有大量的适合机器学习的场景。 AI要落地,除了平台就是场景,场景非常非常必要。普惠金融这个场景就特别适合AI。 普惠要服务很多人、很多中小企业,这里面一定是技术驱动的。人是没有办法做普惠的。而蚂蚁金服恰恰就做的是普惠金融。
CSDN:蚂蚁金服常提的概念是TechFin,用科技为金融赋能。这里面关于风控,主要用了什么技术模型?里面的原理是什么?
漆远:风控这块主要是无监督学习。里面的思路是,假如你能把用户之间的关系,他们正常行为分析得很好,那就可能发现有哪些不正常的。在统计机器学习里面我们叫做异常检测。如果我们用一个更好的模型来分析正常的用户行为,就可以分析异常的行为。跟正常不一样的,可能最后就是异常。
其实我们并不知道哪些数据特征和风险相关,哪些不相关,所以我们就把当初开发广告的一套技术思想,用在风控里面。通过机器学习,一个是保证准确性,一个是误识率这两个的平衡,我们就能够在抓到足够坏人情况下,不打扰用户,减少上千万次的用户打扰。这里面灌入我们系统里面用户行为轨迹的数据,然后再把这种特征变换的技术和深度学习的技术做一个结合,运用在风控里面,而且效果非常好。
数据的实时性和多维度非常重要。结合用户本身的行为轨迹,就可以分析是否是一个欺诈行为,盗号或者洗钱行为。
CSDN:来蚂蚁金服后,您主抓三个方向的落地:广告预测CTR,AI助力 金融科技 TechFin,还有智能助手。关于广告预测CTR,讲一个特别创新的例子吧,以及背后的技术点。
漆远:那我说说口碑吧。CTR对它的提升特别大。
我说说这背后的技术亮点。 这里面就是一个矩阵分解和哈希算法,可以完成十亿数量级的超大规模学习。
这种情况下怎么加速?
我们把它和哈希算法进行结合,结合之后可以大规模提升效率,同时保证预测的精准性。这算是一个直接的技术创新。工业界讲究稳定性,在稳定的技术上讲究速度和计算的资源消耗程度,然后才是准确性。
CSDN:目前来说,您主要的精力是抓什么?
漆远:从技术本身,我们现在比较关心的其中之一是 智能助理 的发展,然后另外一个就是蚂蚁金融大脑的构建。我们希望通过智能助理,帮助蚂蚁变成一个智能的一站式生活服务平台。
比如转账给某个好友,直接说句话,支付宝自己就给你转了,你只需要点击确认。比如你要找到一个埋得很深的城市服务,打车,买电影票,你对助理一说,就完成了。这个是我们比较关心的方面,涉及到很多机器学习,自然语言处理,对话技术,知识图谱还有推理能力。
另外一个就是蚂蚁的金融大脑,这个金融大脑要理解市场的风险,包括信用风险、理财风险等,并从多个角度来理解它,这个是我们金融大脑的定位。这也是我比较关心的一个事情。
再一个,是希望把我们的AI能力直接赋能到现在所有业务领域,对我们业务的发展,就像水一样注入所有业务的发展。
CSDN:蚂蚁金融大脑比较难攻克的地方是?
漆远:金融大脑的核心能力就是 推理 ,推理是一个核心问题。从推理到决策,怎么能够保证它是一个系统化的风险刻画,而不是单个的单点的刻画。
深度学习应用很多都是单点模型,比如预测这张脸是不是你,预测图片里面是狗还是猫。这是单点的。但金融里面很多是一个网络结构,是一个系统。
这与大家平时外面听得比较多的图像识别不太一样。
CSDN:智能助理,从您开始创立到现在,已经到了什么阶段,取得了什么实质性的效用呢?技术难点在哪里?
漆远:蚂蚁金服业务的迅速扩张,对客服人员的需求量还是非常大的。去年的双十一,客服已经做到97%的自助率了,满意度也高。因为自助率高的话,大部分使用自助程序的 机器人 干得比人还好,人的满意度也很高,比真人提供的客户质量、满意度还要高,这是一个直接的表现。
这里面的技术难点包括推理,对知识库的理解、知识图谱的构建等。
CSDN:目前在工作上,有什么问题是想解决还没有解决的?
漆远:怎么把公司的长期目标分解成一个短期的算法指标,这个还需要思考。
CSDN:可否透露一个您还从来没有对外讲的料?
漆远:我们正在知识图谱上做相关的推理能力。我们把深度学习和图模型结合起来, 在风险上做出了新的东西, 这个是非常大的技术亮点。
深度学习以前和图模型是分开的,并没有做推理能力。我们把这个结合起来,直接大规模的提升了我们效率,上星期刚做到的,这个还没有对外讲,绝对是独家专有的。
深度学习怎么推理,是一个技术难点。怎么从这个知识点推到下个知识点,下个知识点推到下下个知识点,这个其实并不容易的。
因此在我们行业应用,这绝对是第一次。其实在整个世界上,这个技术本身也是非常领先的,可以说是最领先的。前两天有一个伯克利一个教授来了之后,聊完之后也是非常震撼。
CSDN:问一个俗套的问题,在金融领域,您觉得哪些领域、哪些职业是很容易被未来的AI取代,哪些是不太容易被取代的?
漆远:重复性的,没有真正创造性的工作,我觉得从长远来讲会收到很大的冲击。
假如你的工作每天一模一样,天天看一个财报,拿一个规律做一个结果,将来就会非常危险。最简单的例子——贷款,对于贷款审计,数据就可以利用算法自动完成。
蚂蚁金服急需的人才
CSDN:问一些大家都迫切想知道的问题。蚂蚁金服现在估值600亿美金,很多人也希望进入里面工作。您对人工智能团队的要求是什么样的?什么样的人才能够进入到蚂蚁金服的和您一起来工作呢?
漆远:对团队的要求是,既叫座又叫好。
叫座的话,首先能够解决实际问题,见效果,从问题出发,不是拿着锤子找钉子。
叫好的话,希望有技术深度,当然这里面需要平衡,有的同学算法多一点,有的搞工程多一点。
我们的团队不是一个刷单的团队,刷各种外面的公开比赛,我们是真正要解决实际问题,一方面提升蚂蚁金服甚至服务整个阿里经济体,解决大家遇到的核心的AI问题;一方面我们要产生新的产品、新的服务,能够造成新的增长点,这是目标。
这就直接映射到我们对人的需求上来。
我希望加入我们团队的人,首先能够对机器学习技术本身有真正的热爱,没有热爱就比较难做。因为技术说起来很高大上,真正做起来需要投入的精力,不是短期的,也不是表层的。
第二,对于人才我们既需要全栈型的,也需要对某技术特别钻深的。如果两个都很强,那就更好了。
CSDN:没有名校背景的人,但是有一些实战经验,这样的人才也OK吗?
漆远:实战经验看怎么定义,实战经验如果是自学,真正学了很多机器学习的技术,真正比较深入地掌握了技术,有基础并且还能进一步提升,这种实战经验就非常好。
如果只是拿开源软件做了一个模型,对背后的思想和原理并不明白,那我认为这个潜力就不是非常高了。
CSDN:现在急缺的是哪一类人?
漆远:急缺的图像上的人。图像市场竞争激烈,好的人才,大公司、创业公司抢得非常严重。好的算法人才,永远都不够,但是除了算法人才本身,工程和产品我们一样很缺。
还有一个方向,既有金融经验,又有算法经验的,也非常缺。我们用科技服务金融公司,假如能和金融协调起来,那就更好了。
麻省理工及普渡大学的影响
CSDN:从阿里到蚂蚁金服,您操盘过的内容包括机器学习平台、语音识别、PAI平台等,为阿里奠定了一个比较好的AI基础,您觉得哪段经历对于今天的您影响重大,麻省?还是普渡?两个学校有什么不一样?
漆远:当然不一样了。
在麻省读博时,主要是理论基础的学习,博士后就是创新了,开始做各种算法,然后是应用,包括基因解码、生物信息上的应用。
麻省理工是当之无愧的世界最牛的科学和工程学校。我们住在学校楼里,和诺贝尔奖获得者一起吃饭、聊天。比如人工智能创始人马文·明斯基,与他们交流,对扩大思路,提升眼界,有很大的帮助。
在麻省理工收获的很重要一点就是,不迷信任何权威。
在普渡当了老师后,更多会思考哪些是机器学习人工智能可能有的方向,技术本身突破的方向,社会应用哪些是最关键的。
在普渡做老师和做公司其实是一样的,你要自己拉项目基金,自己招人,自己设定方向,自己产出复盘,整个体制和你在做一个创业公司是非常像的。
普渡当时一个优势是计算机系和统计系的结合,因为机器学习本身是计算机和统计、优化形成的融合。这个对我来说非常吸引。
当前感兴趣的理论
CSDN:您现在最感兴趣的前沿理论是什么呢?为什么?
漆远:现阶段比较关心两方面的理论,一个是推理,一个是先验知识结合小数据学习。
我对物理也是感兴趣的,我从物理学、包括经济学看到很多结合点,总结来说对三点比较感兴趣。
一个是物理上非均匀态的物理学和机器学习的结合;
第二个是非均匀动态变化系统和机器学习的结合,我们叫动态系统;
第三个是博弈论和机器学习的结合。
CSDN:最后一个问题,请您分享一句话,一句话您在AI之路上,对您帮助最大的一句话,或者是您多年从事AI这一块,最大的一个心得体会。
漆远:Assume nothing,question everything。(不事先做任何的预设,敢于质疑一切)
很多问题本身要从基本原理出发,不应该带着有色眼镜,不管是商业还是科技还是技术链的,大家要敢于从独特的角度来思考。我觉得做科学和做公司,到最后的相通之处,都是从基础的原理、从最基本的问题出发,这个非常关键。
所有大牛所有的理论,都有可能是错的。你要敢于质疑现有的状况,现有的方案,想到更好的方案,不是人云亦云。