看清现实:牛津报告揭中国AI三大短板
2017年7月20日,国务院印发《新一代 人工智能 发展规划》,引发国际广泛关注。刚刚结束的两会,人工智能也成为关键热词,并且再一次被写入政府工作报告。中国的AI正步入发展快轨,第一次有望在核心技术领域领先世界,全球都在关注这颗冉冉升起的“中国AI梦”。
但梦想之所以称之为梦想,就是距离现实还有一定差距。 新智元创始人杨静5日对《环球时报》记者表示,人工智能平台分硬件和软件,核心技术一直掌握在西方手里,比如芯片技术。此外,中国没有主流开源框架也是很可怕的,深度学习、强化学习等算法的研究也落后于西方。就拿阿尔法狗所包含的强化学习相关技术与算法来说,中国仍落后于英美。
在牛津大学最新完成的一份报告《解码中国AI梦》里,作者也得出了同样的观点。 除了数据,中国在硬件、人才、算法和产业等方面,仍然落后于美国。
但是,“中国政府认为, 标准化 不仅是为公司提供竞争力的一种方式,也是让自己从追随者变为节奏制定者的一种方式,”报告作者、牛津大学人类未来研究所的Jeffery Ding表示。Ding的专业方向是研究中国新兴的人工智能行业,他去年翻译了中国政府发布的《新一代人工智能发展规划》,并对中国的其他AI政策也有深入研究。
Ding说,“我认为AI是中国第一个真正有机会制定游戏规则的技术领域。”
报告的分析表明,中国新兴的AI行业正在仔细考虑如何充分利用这一新兴技术。“政策制定者、研究机构和科技公司的思想深度和思考的广度,大大超出了我的预期。”Ding说。
中国AI潜力指数约为美国的一半,17:33
尤其值得一提的是报告提出的“AI潜力指数”(AI Potential Index),从硬件、数据、算法和产业(商业)这四方面衡量一个国家的人工智能综合实力。虽然有其局限,比如代理指标数据的可靠性,以及AI研究人员的实力无法很好的量化,但如下表所示,除了数据,中国在其他三方面均落后于美国。
具体说,中国的人工智能实力(AIPI)约为美国的一半,17:33。
在以下四个部分,报告详细说明了每个驱动因素的重要性。首先,尽管这份报告分析了每一项单独的驱动因素,但它们之间的关联不容忽视。例如,硬件改进(GPU的发展)已经提高了AI算法的性能,并且创新算法已经在转向,可以通过并行化(运行程序)更高效地使用大量硬件多个处理器)。其次,每个驱动力相对于其他驱动力的重要性是许多争论的主题。
当人工智能专家对人工智能进展对各种驱动因素的敏感性进行调查时,意见差异很大,没有就每个投入的相对重要性达成共识。其他分析人士指出,每个驱动力的相对权重随着时间的推移会发生变化,并受到像开放获取这样的重大趋势的影响。
中国 半导体 生产占全球市场份额4%,美国50%,中国硬件远不及美国
由于初始成本高,创建周期长,处理器和芯片开发可能是最困难的中国人工智能计划的组成部分。目前,AI硬件分为两类:(1)已经诞生的新品用于训练AI算法(例如,CPU和GPU);(2)设计的芯片专门用于执行机器学习和深度学习算法(例Google的TPU和微软的 FPGA )。这两类芯片的制造在运行时更直接相关人工智能算法,如果研究人员能够更好地利用协同定位,互联计算的优势。
在第一类硬件方面,中国半导体产业实力的衡量标准揭示了人工智能发展的潜在瓶颈。 传统半导体公司的一般指标是重要的参考因素,因为这些公司正在扩大自己的处理器来处理人工智能软件,以及收购创业公司建设AI芯片,在2015年,中国半导体生产的全球市场份额仅为4%,而美国占全球市场份额的50%。总融资数字显示中国半导体行业的融资总额仅为4.3%。
在第二类硬件中,像TPU和ASIC这样一些专门用于快速运行神经网络的芯片。在中国芯片制造商前10名中,有6名专门从事ASIC芯片,这种芯片不像其他芯片那样灵活,例如提供高效率性能的FPGA,以及灵活地改变底层硬件以适应快速变化的软件的方案。
美国和中国都有两家芯片制造公司,专门从事FPGA芯片,都跻身前十。美国两家公司共获得1.92亿美元的融资,而两家中国公司共获得总额为3,440万美元的资金。与人工智能的许多方面一样,芯片创新也在不断发生。例如,Google最近推出了Alpha Zero用于学习国际象棋的第二代TPU,它们能够比GPU和CPU更高效地训练AI算法。
中国在建设超级计算机方面的成功表明,它有可能赶上AI硬件领域的世界领先企业。看中国高性能超级计算机的份额:2014年,中国在全球五百强榜单中的份额由76个系统(15.2%)组成,在232个系统中排名第二(46.4%)。2017年6月的Top500排行榜中,中国几乎赶上了美国,前者拥有159个系统(31.8%),后者拥有168个系统(33.6%)。可以对这类硬件进行进一步的区分,超级计算设施可能在未来变得更加适用AI开发。
尽管如此,正如加利福尼亚大学的物理学家Larry Smarr所指出的那样,如果其他国家开发专门针对AI的新型超级计算机,中国在制造传统超级计算机方面的卓越表现可能并不重要。
总而言之,中国依靠进口和收购来提升AI硬件实力。由于这一战略已经受到美国和欧盟的更多审查,中国正在推动其国内芯片制造业的龙头,并对强大的超级计算机设施进行长期押注。
中国封闭的互联网生态系统带来数据优势,2020年将占全球20%
数据是人工智能系统的另一个重要驱动因素,机器学习需要大量的数据。拥有大量数据被认为是中国人工智能开发的优势之一。由于隐私保护措施相对宽松,中国科技巨头收集大量数据,并且在政府机构和公司之间共享是很常见的。中国消费者是这些数据的来源,全国智能手机普及率和行业预测显示,截止2018年1月,中国消费者将占据全球零售电子商务市场50%以上的份额。
根据赛迪顾问的报告,预计到2030年,中国将拥有全球数据的30%。中国科学院院长白春礼估计:“到2020年,中国将占全球数据的20%,这是预期的44万亿千兆字节。”
AAAI会议,中国论文录取率超过20%,领先美国
算法研究的发展是AI发展的一个关键因素。中国的研究者能够快速地复现目前最先进的算法。得益于巨大的人才库,中国已经发布了大量的AI研究成果,但是在与领先国家和最优秀研究者的创新性研究方便仍然存在差距。在2014年,中国在AI研究的数量上超过美国,一个证据是在AI相关的会议和与深度学习相关的论文数量上。AAAI,AI领域顶会之一,它的数据显示,在录取论文中中国的研究者占比超过20%,位于第一,第二是美国见图四。
但是,中国在基础研究上落后于美国和英国,统计显示美国和英国的研究更有影响力,表现在它们的引用数更高。当被问到美国和中国的AI实力时,FaceBook的AI首席科学家Yann LeCun强调了最先进的AI实验室的重要性,在美国有 谷歌 大脑,FAIR,OpenAI等。目前,中国的学术界和工业界都倾向于研究已经存在的AI技术的应用;这两个群体是否开始致力于人工智能的创新性研究会是中国AI未来发展的一个关键问题。
在基础研究上的差异也有一部分原因是人才短缺。尽管有大量的毕业生,但是中国仅有39000名AI研究者,还不到美国的一半。美国得益于有大量世界领先的大学在进行AI研究。这导致有更多的完成过多个完整项目的专家。美国超过50%的AI研究者都有超过10年的工作经验,然而在中国只有25%。
人工智能企业数量中国占全球23%,美国42%
报告分析的AI发展的最后一个驱动因素是AI的商业生态系统。一系列指标——特别是人工智能公司的数量和收到的人工智能相关融资——使中国的人工智能商业生态系统位居世界第二,约为美国同行的四分之一。在全球人工智能企业总数中(根据2017年6月的数据,2542家),美国占42%,而中国以23%排名第二。美国生态系统培育了更多具有竞争力的AI创业公司,其中39家有前途的AI创业公司,而仅有3家有前途的中国AI创业公司。
近年来,大型科技公司竞相收购领先的民营人工智能公司,以获取技术和专业知识,美国科技巨头直接从强大的人工智能创业场景中受益。从2012年至2017年7月,在全部79家AI公司收购中,66家被美国公司收购,而3家被中国公司收购。与此相关的是,在这些并购交易中收购的公司中,只有一家来自中国(百度),51家来自美国。
虽然人工智能公司的数量提供了一个行业规模的首要衡量尺度,但人工智能公司筹集的资金量可以帮助提供更全面的人工智能版图。据乌镇研究所的报告显示,从2012年到2016年,中国人工智能企业获得了26亿美元的投资资金,远低于美国同行收到的172亿美元。
正如“核心人工智能”和“人工智能相关行业”之间的模糊区分的情况一样,商业人工智能领域的数字也很模糊。例如,IT巨子和腾讯研究所的另一份报告对美国和中国的人工智能融资规模提出了截然不同的估计,发现美国获得全球人工智能资金的51.10%(148亿美元),而中国人工智能企业排名其次是全球AI资金的33.18%(96亿美元)。
另一个矛盾估计背后的因素是人工智能场景的快速变化。 作为参考,从2014年到2016年,中国人工智能新公司的数量占中国人工智能公司总数的55%,中国人工智能投资在这三年中的规模占中国融资总量的90%以上。2017年,中国的AI创业公司在全球的创业公司中获得了48%的资金,超过了美国人工智能创业公司的股权资金份额,获得了全球38%的份额。过去一年中国AI市场的增长是天文数字,因为2016年中国仅占全球资金的11.3%。尽管对中国AI部门的确切规模有不同的估计,但在这一部分所有考虑的指标中,中国的AI行业在绝对和相对的条件下在过去几年都有显着增长。
在所有驱动因素中,不要从零和竞争的角度来观察。事实上,每个驱动要素,各国间的合作往往是互利的。中国是美国人工智能硬件的主要市场,数据可以跨境共享,世界各地的研究人员共同合作AI论文。最后,在过去几年中,对美国和中国的跨境AI投资显着增加。 从2016年到2017年,中国支持的对美国初创公司的投资从19个增加到31个,美国支持的对中国新创公司的投资从5个增长到了20个。此外,常常被遗忘的是,腾讯和阿里巴巴都是跨国公司,国际利益相关者拥有相当大比例的上市公司(Naspers拥有腾讯33.3%的股份,雅虎拥有阿里巴巴15%的股份)。
总而言之,虽然要看到美国和中国人工智能能力的比较评估,但重要的是要考虑各种人工智能驱动因素的相互依存的积极方面。
在未来数据的重要性可能降低,中国AI发展受制于人才
如上所述,除了数据量大外,中国的每个驱动力都落后于美国。根据AI潜力指数,中国的人工智能能力(AIPI=17)约为美国(33)的一半。
当然,当权重不同的时候,这结果自然会变。例如,百度COO陆奇认为,数据是最终的驱动力,因此中国AI有极大的潜力。
如果数据因素比其他因素权重高出三倍,那么中国和美国的AI潜力相当。但是,和其他因素比起来,在未来,数据可能不那么重要。因为未来的AI算法可能不需要预先创建的数据(例如训练 机器人 )。
“目前,人才仍然是中国人工智能发展的主要瓶颈,”专注于中国新兴技术和防御创新的华盛顿特区分析师艾尔莎卡尼亚(Elsa Kania)在接受Nature记者采访时说。她援引LinkedIn的数据,在中国人工智能领域工作的人中有38.7%拥有超过10年的经验,而美国的这一比例为71.5%。她表示,“中国将需要继续积极努力,从硅谷和其他地方招聘外籍人才”。
在北京的科技中心中关村,已经采取了一些措施。2016年,当地政府让外籍人士更容易获得永久居民身份,并于2017年推出了相关政策,为中国公司注册,税务,财务和知识产权等各方面的创业新人提供支持。
事实上,加强人才在政府的人才发展计划中被认为是“最重要的”,该计划呼吁“加速引进一流的全球人才和年轻人才,为中国人工智能创造一流的人才基础”。该计划特别提到了国家“千人计划”,为吸引海外和中国的海外科学家提供有力支持。
由SHMBA创投联盟主办的 2018-SHMBA“跨越A轮”创业大赛启动仪式 将于2018年3月22日举行,邀请到卫哲、章苏阳、董占斌、方宇锋等20位投资嘉宾出席,并举办创投酒会。大赛将围绕“新消费、新金融、智能科技、医疗科技”四大板块展开,优胜项目将有丰厚奖励。