【2016中国企业服务峰会】360说,在人工智能领域他们也有新进展
在由 36 氪和 IDG 资本联合举办的2016 中国企业服务峰会上,360 人工智能研究院院长颜水成做了《面向安全的人工智能》的演讲,全面分享 360 在人工智能方面的一些状况和进展。
以下是现场演讲的实录:
颜水成:
非常高兴能有机会在这跟大家分享 360 在人工智能方面的一些状况和进展。大家都知道 360 是一家以安全起家的公司,在过去的 11年 中,安全一直是他们最基本的基因,业务也从电脑安全慢慢转移到手机上的安全,以及最近公司开始非常关注这种企业类的安全。
当前因为在这种互联网大环境下,公司把安全的概念进行了一个延展以后,进行泛安全或者是大安全的时代。这样的话,除了关心这种传统的线上安全之外,也非常关注这种线下的安全。
线下的安全这种业务主要有三个方面的考虑,一是面向小孩安全主要是发展穿戴式的设备;二是关注家庭和家人的安全,主要是关注家居的安全和智能家居;三是关注出行的安全,主要是跟车辆有关的各种安全问题,比如说信息安全、车联网的安全以及驾驶的安全。当所有东西合在一起,我们希望让每个人都有一种安全的感觉。
在这种大安全的大策略上,公司慢慢地希望把这种人工智能作为安全的磐石,希望在这种大安全的前端需求之下,逐步打造面向大安全的安全智能。
大家都知道对一个公司来说,如果希望人工智能有很好的应用的话,那么有三个要素是非常关键的:一个是需要有大的标注的数据,另外一个需要有人工智能的前沿的算法,还有一个是需要有大的计算平台。
总的来说,360 的人工智能有两个阶段:第一个阶段我们希望能够达到一种从 0 到 1 的阶段,也就是说希望能在我们不同的产品线上有一些使用。第二个阶段我们认为是从 1 到 N 的阶段,意思是我们希望这些人工智能的技术不只是可以开始用了,也可以产生一定的技术的意义。
大家都知道 360 的这种产品,当前的情况一个是这种互联网的产品,另外一方面是面向线下安全的智能硬件的产品。为了让这些产品具有更好的智能化,在过去有很多的人工智能的技术开始进行了研发,比如说大家可以看到当前人脸识别方面我们做了不少的工作,另外就是在车辆和人体的分析方面有一些比较好的进展。其它应用领域来势,这种语音的分析以及面向企业安全的网络流的分析。
(1)人脸识别
人脸识别技术在我们很多应有中是非常重要的。比如说小水滴的业务中,它需要家人有很好的监控,比如说你可以识别家人还是陌生人,以及他们的行为是不是正常的。在人脸分析方面,我们有很多的研究。对这些技术进行了很好的打磨,因为 360 的人工智能团队在前面的算法的精构方面有很好的经验。
在过去半年里,主要是如何让以前高性能的算法快速地跑起来,也就是说能够在端上以非常快的速度在产品中使用起来。在人脸检测方面,我们主要解决两个问题,一个问题是人脸有很多的方面,比如说遮挡、模糊、姿态和光照,这个团队当前主要是针对有遮挡的脸,提出了专门的模型,在数据库上有很好的技能,当前是 97%,同时在加速方面也保证了人脸检测能在当前的比如说小水滴的运用中有比较好的应用。在关键脸检测方面也是人脸检测的非常关键的一步,我们的算法上主要是想解决人脸上有很多点可能是遮挡的情况。CN 的模型加上 STM,智能做这种点的检测就可以做遮挡的解析。当前在 300W 的人脸分析上也取得了非常不错的结果。
人脸识别这个团队很早就取得了非常不错的性能,但是当前人脸识别的场景化是非常关键的,比如说一种是对互联网图片上的人脸识别,一种可能是对互联网金融方面拍摄的照片和身份证照片的匹对。这种场景和 360 的应用场景有比较大的差别,我们比较关心在小水滴领域,在家庭领域的人脸识别。这样的话数据就变得非常关键,如果有什么比较好的测量,在比较小的数据就能取得比较小的性能,做场景化的定制的话,是人脸识别非常关键的环节。
(2)车辆和人体的分析
下面一个环节是车辆和人的分析,这个团队在物体的检测和识别方面取得了很不错的成绩,比如说他们曾经在号称世界计算机世界杯的竞赛上曾经在五年内七次获得冠军和亚军奖项。他们经过在前面的这种经验的积累,对算法进行打磨,模糊无法识别能从 74%降低到 9.6%。人和车非常复杂的背景情况下,它可以基于双目方案对人和车进行精确定位的同时,可以很好地估计,同时借助高清摄像头对路上的车和人有比较清晰的定位。
(3)语音语义
刚才说的视觉感知方面我们有了一些进展,因为我们要面向这种智能家居,只是视觉感知还是不够的,我们在语音和语义方面也有不错的进展,比如说我们的一个系统部的同事打造了多姿多卡进行了系统打造。当前云识别的错字率能降到 1%的情况下,它能比较好地支持比如说语音的输入,比如说语音的搜索和基于语音的对话。另外一个也是今后学习的方向,就是语音的唤醒,因为对于这种智能硬件,像手表、智能摄像头还有其它智能设备,语音唤醒是非常重要的。
当前生产出来的模型大概是千分之一的不通过率的情况下,能达到百分之一的及时率,对于这种产品的应用已经有很好的铺垫。
(4)面向企业安全的网络流
同时除了这一块之外,在大数据方面公司也有很好的积累和铺垫。比如说我们企业安全部的同事,他们用堆栈式的服务,他们对于这种网络上的网络流可以进行协议的识别和应用的识别,比如说你在网站上随意截取到一个网络流,是不是可以预测出它是用什么样的协议发送的,是不是可以预测出它是用什么样的运程发送的。这种基于互联网的信息是非常有价值的。
人工智能特别是基于深入学习的人工智能,可能现在训练的平台的出现已经变得非常普及了,公司的技术从 0 到 1 的转变是非常可能的,但是公司人工智能或者技术的发展最关键的是怎么样能让技术有一个比较好的壁垒。360 最近有两个重点,第一个重点是我们要重点发展端上的智能,因为这种端上的量肯定要比云上的量高很多,而且有各种端出现。
要发展端上的智能化有两种方式,第一种方式是你可以用编译的专用的芯片,我们要想想在中国的这种大环境,这种智能硬件低价的大环境情况下,如果用这种编译的专译芯片当然是一种方式,但是总的来说它肯定会让产品的价格有大幅度提升。
我们认为这种编译的专译芯片绝对不应该是唯一途径,也就是说应该让端上的技能真的建立一个技术壁垒的话,你要在算法上真正意义上降低计算量。打比方说 1×1 的卷积,它就能帮助你去设计这种高效的网络。首先比如说最近的微软的产品,如果 256 级做 3×3 的卷积就是 9 的量级,如果你能用 1×1 把 256 做成 64 家,就有 4×4 的降低,这对于端上是非常有价值的。另外一方面在这种有损失的情况下怎么样减少计算量,在工业级上应用的可能比较少,但是在端上微损是可以接受的。
其实这种端上的小的模型,可能它的精度上会有损失,但是如果你的企业的运用有很多的大数据的话,那么大数据在某种程度上就能密度这种精度的损失。当然,这些信息绝对不会成为技术壁垒,真正的技术壁垒是有什么方向不减少技术的情况下有精度的提升。这也是我们 360 研究院在极力发展的方向,这是非常高技术壁垒的方向,但是我觉得对于中国的这种特定的环境下是非常重要的,也就是说奔跑在 CPU 上的编译绝对是以后端上非常重要的发展方向。
另外一个非常重要的方向,是怎么样让人工智能的系统具备自学习的能力。一方面对很多的应用,你真的是没有办法标注,比如说做自动驾驶,一般的企业来说没有办法真正搜集到各种场景下的数据。如果你的系统在运行的过程中能够自我自主地学习、自主地搜集这些信息的话,那么它的性能肯定就可以逐步增强。但另外一个方面来说,在端上我们只能有轻量级的计算,如果我们能自主学习的话,之后就可以保证在端上可以达到计算,因为个性化服务不是服务所有的人,这样的话小模型就有比较好的针对性。
另外自主学习完全有自主性,一方面当一辆车在路上行驶的时候,我可以根据上下文推导出哪些是人,哪些是车,车辆检测,特别是家里的机器人,这个机器人可能一开始应用的时候负担家里所有的,但是如果逐步积累一些位置检测出一个人,如果能把这些样本当做了增益样本的话,那么机器人的这种性能就会更加自主地增强。我们的目的是希望最终这些物联网的产品有自学习的功能,最后变成懂我的互联网的产品,而不是互联网的产品到你家里之后,就变成一个 Fix 的东西。
最后做一个小的总结,在 360 这种大安全的策略上,现在人工智能技术已经逐步地运用到公司的很多产品中,同时也进一步证明了人工智能这种技术有很多新的产品的形态正在打磨,我也敬请大家期待 360 有更多的人工智能的产品服务于普通的老百姓。谢谢大家!