中国人工智能崛起直追美国 但在这些方面还有差距
(原标题:中国AI力量崛起 直追美国)
作为人工智能国际顶级会议,由美国人工智能协会(American Association for Artificial Intelligence)组织的AAAI大会在美国旧金山召开,在今年的大会上中国面孔成为不可忽视的力量。在2571篇投稿论文中,中国和美国的投稿数量分别占到31%和30%,虽然在被接收论文数量上,中国还是低于美国,但数量已经大幅提升。
一个小插曲则是,今年的AAAI大会原计划在新奥尔良召开,由于和中国春节冲突,AAAI Fellow、AAAI现任执委杨强教授和几位教授紧急向组委会发送邮件,使得最终破格更改了时间和地点。
可见,中国在AI领域正在蓄势,逐步成长为中坚力量。据《乌镇指数:全球人工智能发展报告》,在全球人工智能专利数量方面,中国以15745个紧跟在美国26891个之后位列第二,日本以14604个排名第三。值得一提的是,三国占总体专利的73.85%。
华人势力
“不仅仅是学者,来参会的中国公司也变多了。”杨强表示。从今年的活动赞助商而言,百度、腾讯和亚马逊、IBM一并成为金牌赞助商,小i机器人、今日头条也跻身银牌赞助商之列。在今年收录的论文中,百度、腾讯、华为、360、今日头条、携程等中国公司的人工智能团队也有出现。
百度研究院院长林元庆对第一财经记者说,过去几年里,她在参加国际上人工智能领域的顶级会议中,确实可以看到参加会议的华人非常多,而且在过去几年里增长很快。他认为这同时也和国内几家公司在人工智能领域的投入有关系。
“中国人适合做人工智能,世界上43%的人工智能论文都是中国人写的。”创新工场创始人李开复(微博)曾向第一财经表示。根据美国白宫此前发布的《国家人工智能研究与发展策略规划》来看,从2013年到2015年,SCI收录的论文中,“深度学习”或“深度神经网络”的文章增长了约6倍,按照文章数量计算,美国已经不再是世界第一。在增加“文章必须至少被引用过一次”附加条件后,中国在2014年和2015年都超过美国,位居前列。
“这一轮人工智能并不是一个新的革命,而是18世纪工业革命自动化的一个延续,技术一旦掌握到手里,可以迅速扩展到做全世界的生意,所以这对于中国起到了一个弯道超车的作用。”杨强表示。
中国人数学好、刻苦努力无疑为中国发展人工智能提供了良好的基础,但更大的驱动力在于产业需求。一方面对于传统企业而言,需要新技术来推动产业变革,“中国的经济结构还有很多不合理、低效率的地方,通过人工智能浪潮,就形成了一种新的竞争。”杨强强调。
对于互联网巨头或新兴独角兽公司而言,同样需要借助人工智能技术,激发已经存储的海量数据,提升服务精准度,创造潜在盈利机会,“互联网大市场孕育的应用到C轮需要人工智能。”李开复表示。例如今日头条在借助人工智能技术,将新闻内容和视频进行重新排序,实现资讯分发的千人千面,美图也利用人像数据库,对数据进行标记、结构化,优化图像算法。
“全世界只有中美两国有如此大量的数据、大规模的计算和应用场景,在应用层面中美基本处于同一起跑线。”地平线机器人技术创始人兼首席执行官余凯向第一财经表示。余凯曾担任百度研究院副院长、深度学习实验室(IDL)主任,带领的团队将深度学习技术成功应用于广告、搜索、图像、语音等方面,在此之前他也曾在美国NEC研究院、西门子数据研究部、微软亚洲研究院工作。
在余凯看来,中国有世界上最大的互联网公司,且拥有搜索、社交、电商、互联网金融等很好的应用场景,“大规模的计算平台都需要大规模的应用场景,在小实验室是做不了的,年轻人在这样的工作环境中会得到持续的锻炼,包括工程实验能力、对算法的理解等。”
“最大的优势是人多,这种优势体现在三个层面,人多意味着市场大,有更强的驱动力去把这件事情做好。其次针对社会服务层面,需要很多数据。第三,人才基数比较大,冒出顶尖人才相对多一些。”第四范式创始人、首席执行官戴文渊告诉记者,“从数据量、投入的人力财力来看,中美之间没有多少差距,且中国更有优势。”
中美差异
但将论文数量视为中国人工智能发展水平有失公允,虽然在靠近商业价值应用层面中美并驾齐驱,但在基础性、原创性研究、创新土壤、人才储备层面,中国相较美国还存在不小的差距。
“国内更多是技术的落地、产业化和应用,国外仍然有很多人在公司和研究院做前沿研究,包括寻求方法论上的突破,我们擅长把事情做得更细致,相对而言突破性和奠基性的工作还不够多。”地平线机器人技术联合创始人、算法副总裁黄畅告诉第一财经。
黄畅毕业于清华大学计算机科学与技术系,曾在美国南加州大学和NEC美国研究院担任研究员,2012年加入百度美国研发中心,2013年和余凯参与组建百度深度学习研究院,任高级科学家、主任研发架构师。在黄畅看来,做研究无外乎寻找新的问题和研究新的方法,而在这两方面国内和国外相比还存在不小的差距。
杨强认为,深度学习是不断发展的,研究领域的领导者应该是开拓新的领域,而不是在原有的基础上深挖。“把一个10层的深度模型拓展到100层甚至1000层,我觉得这个确实是一个进步,中国人目前是这个层次,但这些在我看来并不是一个原创。”杨强举例说道。
“现在很多高校是看教授和学生的论文达标情况,顶级会议论文的发表对学生申请院校、教授评级、申请科研经费等都有帮助,真正做出突破性理论研究,不迎合考核体系的非常少。”戴文渊直言。在他看来,虽然有相当数量的人参与到人工智能研究,但优秀的研究成果并不与参与人数的激增成正比。
余凯认为,有一些中国学生很擅长“刷分”、“刷榜”。“别人做到99.5%,我做了99.7%,并不一定有实质性突破,世界也没有因为这个刷分而变得不一样。原创性的创新需要不一样的思考,现在讲深度学习比较多,所有的人都进行深度学习,而不是思考What is wrong ?How to be different?”余凯强调。
在人工智能领域浸染十年有余的戴文渊也有同样的感受,“很多人用力的方向有问题,准确率达到99.1%、99.15%或者99.2%,其实没有什么差别,并不应该把精力用在这些地方,而应该关注不到60分的领域,去把它做及格。”
回归至深度学习的历史发展脉络来看,正是一个边缘化课题走向主流技术的路径。早在上世纪80年代初期,深度学习学派的开山人物Hinton一直坚持神经网络的探索,但受限于当时的电脑速度、数据量等问题,深度学习理论是一项边缘化的研究,当时AI的主流研究方向与之截然相反,推崇小样本学习,主推SVM学习。
正是以Hinton为代表的一群人对深度学习的坚持,才一步步将边缘课题变成人工智能核心技术。“十年前进入这个领域,中国学生都在学优化理论,现在一窝蜂地学习深度学习,很少有人在怀疑深度学习是不是最优解,就像之前很少有人去思考优化是不是最优解。”戴文渊说道。
人员成本居高不下
在余凯看来,中美之间的差距表现在两方面,一方面是人才储备的匮乏,很多高校在很长时间内并没有人工智能专业,而在美国基本上大的院校都有人工智能教授。以美国卡梅隆大学为例,设有专门的机器人研究所,其中光教授就有100多位,纵向而言,中国布局的时间也比较晚。
早在2012年余凯回国在百度成立了人工智能团队,担任百度人工智能研究院执行院长,在他的记忆里,当时在高校招人非常困难,很多是在招进百度之后再自己培养。
其次从产业链而言,谷歌(微博)或者Facebook的人工智能团队不仅可以从斯坦福等院校招人,还可以从微软、IBM、HP等大公司挖走人工智能领域的人才,“当时别的企业还想着从百度挖人,无论从科研教育还是整个产业界,起步都是晚的,规模还是小的。”
至今余凯仍会频繁去美国参加一些学术会议,让自己保持更多的思考,“国外技术创业比较多,大家探讨的是数学公式及算法,而在中国大部分在讲趋势、概念,如果PPT上放上公式就变得很无聊,心态比较浮躁。”
资本驱动之下,人工智能成为创业最火热的领域,也在加速人才的流动。根据华创资本发布的《2016早期企业薪酬调研报告》来看,人工智能和大数据领域类的早期企业在过去一年的员工离职率高达44%,人员流动活跃。
“付不起工资、抢不到人”成为人工智能企业在人才招聘方面面临的最大博弈。“人才比较少,需要的公司又多,人工智能的人员成本因此居高不下。”戴文渊表示,“我们想要寻找突破常规的人才,需要找到能够将30分的东西做到60分甚至80分的人才,例如目前做深度学习的人有很多,但迁移学习的人才就非常少。”
“德才兼备”是余凯选人的标准,所谓德即对人工智能本身的热情,愿意为之做长期奋斗,而不是短期的。“大部分人是在赶时髦,如果冰天雪地的时候心还是热的,那才叫热情”,才则是数学功底、统计功底、编程能力等等。
“优秀的人才、优质的研究成果永远匮乏,好比人工智能领域论文从每年800篇涨到3000篇,但真正出色的论文在数量上基本不会有太大变化,许多人是在随大流、挖坑灌水、解决细枝末节的问题,产生的真实价值并不大。”黄畅补充道。
与O2O、电商等产业不同,人工智能的技术创新仍旧需要长期且基础性的理论研究工作,如何从顶层设计出发,加强人工智能基础理论研究和核心技术突破,加强人工智能科研人才、技术人才的培养与引进,才是人工智能发展的持续动力。
人工智能挑战
一派繁荣之下,正视人工智能的作用变得更为重要。“相较于告诉人们人工智能能做什么,目前更重要的反倒是告诉人们,人工智能不能做什么。”余凯笑着说道。结合当下的发展情况人工智能仍然面临诸多挑战。
首要挑战就是数据不足的问题。众所周知,人工智能建立在海量数据基础之上,通过大数据训练,来优化算法模型,以人脸识别技术为例,训练这一算法模型需要至少百万级别的图片数据。
目前人工智能主要是监督式学习,有监督的训练就需要带标签的数据,因此数据的质量和精准度及输出结果密切相关。“如何剔除数据中的噪音、垃圾信息,获取优质且带有标签的数据成为新挑战,也正是因为这个原因,半监督式甚至无监督式学习方法必然成为未来的研究热点。”黄畅说道。
另一大挑战在于深度学习的推广和场景迁移能力不足,每个领域的数据都需要重新收集、标准和再训练,很难进行跨领域推广。这些挑战也是人工智能工业界和学术界急需突破的问题。“在招聘的过程中,学习深度学习的人很多,而懂得迁移学习,具备思辨能力的人很少。”戴文渊表示。反映到人才培养和教育而言,如何引导并鼓励学生进行跨领域、原创性的探索研究尤为重要。
例如今年AAAI最佳论文来自斯坦福大学计算机科学系的Russell Stewart、Stefano Drmon,他们所撰写的论文《用物理和特定领域知识让神经网络进行不带标签的监督学习》,就是将物理知识与深度学习相结合,通过跨领域研究给AI带来新的启发。