李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?
ImageNet走了,AI Challenger来了。
ImageNet走了,AI Challenger来了。
8月14日,创新工场、搜狗和今日头条联合宣布,三方携手发起 “AI Challenger全球AI挑战赛”,并且,走在一起的三家确立的目标是:打造中国最大的科研数据集与世界级AI竞赛平台。
在人工智能领域,数据的质和量是科研与研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。在国际上,前有ImageNet挑战赛,后有机器学习竞赛平台Kaggle,都吸引了全球将近百万数据科学家和研究者。但就在上月,在举办了八届后,ImageNet创始人之一李飞飞博士正式宣布其退出历史舞台。
现在,创新工场、搜狗和今日头条走到一起,“我们希望更多的中国人才参与进来,改变世界。”创新工场CEO李开复博士如是说。
200万奖金、规模最大的科研数据集
就在活动发布的8月14日当天,AI Challenger全球AI挑战赛的报名通道也宣布开通,并邀请全球AI科研人才参与。
对各界科研人员而言,这次竞赛中蕴藏着极大的吸引力。
首先就是数据。大赛第一年启动,将开放超过1000万条中英文翻译数据、70万个人体动作分析标注数据、30万张图片场景标注和语义描述数据,是国内迄今公开的规模最大的科研数据集。
据发布会现场介绍,此次三方联合开放的AI Challenger数据集涵盖多个领域,包括最大规模的人体骨骼关键点数据集(用于无人驾驶、安防、体感游戏等场景)、最大规模的图像中文描述数据集(用于图像和视频内容理解、图像标题自动生成等各类应用)、最大规模的口语领域英中翻译数据集(用于同声传译等自然语言处理的各类应用)等。
在奖金方面,首届“AI Challenger 全球 AI 挑战赛”将于9月4日正式拉开帷幕,各路高手展开为期三个月的比拼,并于12月中旬进行总决赛巅峰对决,这次竞赛设置了共计200万元人民币的奖金池。
据悉,2017年竞赛将区分为五个竞赛任务,分别是:
英中机器童声传译
英中机器文本翻译
场景分类
人体骨骼关键点检测
图像中文描述
据赛事主办方透露,本次挑战赛有三大特点:
偏重为前沿科研,并将逐步涵盖计算机视觉、 自然语言处理、 自动驾驶、 智慧医疗、 智慧金融等核心AI领域。
超大规模的高质量数据。首度公开的人体⻣骼关键点检测、 图像描述和口语类机器翻译数据集, 均为国内迄今规模最大。
打造开放的世界级平台。
不难看出,这次竞赛,在科研之外,更大的侧重点是前沿科技,以及和未来商业、生活领域密切相关。而促使三方走到一起,打造这样一项赛事,细究缘起,无外乎两点,那就是推动国内科研创新能力,以及挖掘更多的AI人才。
创新与人才的竞争
“之前的数据集已经远远不够了。”李开复说。
李开复回忆,他之前去美国,在和很多美国顶尖的教授谈话中,他们都在感叹自己已经追不上美国互联网巨头了。“虽然这些教授能力绝对不比谷歌的工程师差,但是他们没有数据、没有大的计算力。”
同样,这也是国内人工智能领域,所面对的问题。在科研领域,研发人员缺乏数据、缺乏机器,同样也缺乏对前沿AI主流研究的课题。而对于拥有大量数据的商业公司而言,也更期待有更多的应用场景和研究成果可以挖掘。
在此之前,搜狗已经和清华大学共同做了9年的联合研究。双方在数据、人才、资金上进行不间断的交流和互相输送,在去年,更是联合成立了天工智能计算研究院。但王小川仍在思考,是否可以把数据公开给更多的国内高校,共同推进研发。而李开复的建议,让他感觉到,在这件事情上,其实可以做得更大。
“我们期待,高校和企业一样做出更好的研究成果。当高校等的研究人员应用数据时,他们可能会打破企业的固有的惯性思维和路径,做得更好、更深。”王小川说。
“我们是出于对数据的共识走在一起的。”张宏江说。“开放能够让更多的人加入进来,让算法研发进展更快。我们也将从中受益。而我们把数据开放出来以后,更多的创业公司也能够从中受益。它们可以应用数据更快地验证和产生新的创意、新的应用场景。”
人才培养的缺口和瓶颈,同样也在困扰着AI领域的创新创业公司。促使更多的人进入AI领域、为AI研发提供动力,同样也是这次大赛的目标之一。
“依赖高校基础上的人才供给,还是有缺口的。我有一段时间,非常担心从互联网时代走向AI时代时我们会掉队。”王小川说,“但今天,我还是看到了希望。中国公司跑得非常快,也在反哺高校,推动中小创业公司的进步。今天我们做这件事情的意义就是,让中国在AI领域里继续得到推动。”
一个月前,张宏江来到斯坦福大学和伯克利学院交流,最大的感受是,在AI人才方面,中美之间,仍然存在着差距。在研究的领先性和创造性上,在新问题的提出和把握上,国内仍然还有很大的改善空间。“这能培养更多的人才。我希望我们今天做这件事促进中国在这方面的发展。”
而“人才”也是张宏江加入今日头条后的一项主要工作。据他对黑智透露,在今年1月份成立的今日头条AI实验室已经有50人的规模,而在今年年底,则要达到200人的目标。而这次竞赛,无疑将更加加强三方在人工智能领域的号召力和影响力,吸引更多的优秀AI才加入。
据悉,本次参赛的优秀选手还可获得进入三家主办方工作、实习或获得投资的机会,并有机会在国际顶级学术会议上分享获奖心得,得到如上海科技大学教授马毅、旷视科技首席科学家孙剑、前Google研究院高级管理科学家林德康等十余位人工智能领域顶级专家评委的指导和评价。
以下是李开复、王小川、张宏江对话实录,经黑智编辑:
蒋涛:是什么机缘让三方走到了一起?
李开复:我之前去美国见到了很多美国顶尖的教授,他们都在感叹自己已经追不上美国互联网巨头了,虽然这些教授能力绝对不比谷歌的工程师差,但是他们没有数据、没有大的计算力,于是我就想到国内是不是也有类似的机会和挑战,回来以后就跟王小川、张宏江、一鸣聊了下。
王小川:我们之前跟清华做了9年的联合研究,不断把数据输送给一个机构,当时我们意识到可以把数据公开更多,我还思考给中国高校提供数据。跟李开复老师聊,我们可以做得更大,实现全球的开放,我觉得李开复老师很有号召力,能做的更好,我愿意一起来做。
张宏江:我们三个人走在一起是对于数据共同的认识,对于人工智能进展最核心的因素,我们能够开放出来,让更多人加入进来,让他们算法研发上进展更快。
李开复:一开始合作三方都有想法贡献,我代表创新工场来描述一下。我们是感觉到 ImageNet 已经一年比一年参与的人越来越少,人气越来越小,数据不够。一方面我们非常认可李飞飞教授当年做的事情,现在数据已经远远不够了,所以我们从创新工场作为投资者角度,觉得我们应该帮助创业者,怎么样尽快速度做一些数据集。
蒋涛:您怎么看我们提出的数据集难度?
张宏江:当一个问题大面上解决的时候,我们应该认识到更加深入的,我们今年发布的数据更细分的领域,包括人体骨骼,包括其他的。我们希望这些数据能够把我们AI算法研究带到下一个高度,能够分得更细。今日头条之所以跟王小川、李开复走到一起,我们希望看到更多的学校,通过这些数据集能够把更好的问题提出来,开发出更好的算法,我们也从中间受益,在学校能有新的解决方案。
王小川:我们有两个期待。我们希望开放全球,尤其高校使用时,是否能像企业一样做出很好的研究性成果。有些企业是有思维惯性、有自己路径的,有可能学校用到数据有不同的方法,有比企业做的更好、更深,这是我的一个期待。
第二个期待,在数据里面发挥真实作用。我们的数据来自于我们自己的问题,给大家一点启发,也许有更大的发挥。我们给他们的是真实的数据,企业在里面做的工作,有些对标,怎么能做出不同的算法、产生不同的价值,这是我认为比赛会有难度地方。
蒋涛:对于参赛的选手有什么样的期待?他们从中除了获得数据以外,还能获得什么?
王小川:很多学生真的很用心地要做好学术成果,但是缺乏条件,真的希望他们在参赛过程中,也许在一些局部里面做成出成果,甚至超过我们的工程师,反过来能对我们产生刺激。如果他们有想法,有动力,能够比做出差异化或者更好,这就是非常有价值的。
张宏江:当我们企业自己做业务的时候,我们更聚焦于我们目前的业务,怎么来服务我们的用户,当我们把数据开放出来以后,给更多的人,包括学校,学生,另外希望更多创业公司,无论做算法、应用的,能够看到数据以后对他们也有所帮助,从而对他们提出更新的算法、应用。
李开复:我希望全国每一个教AI的老师和学生都参加这个比赛。前一阵我见了一个老师跟我讲,找课题多么难。我就鼓励他们,做AI研究还是要做主流的,他们说没有数据,也没有足够的机器。这次我们也希望在AI Challenger能够彻底解决、而且长期解决这个问题,如果真要做主流AI研究,至少知道自己能做到什么程度,这样的数据集一定要尝试的。一定要鼓励他们参加,要提升中国整个AI水平,一定要让每位老师、研究组知道他们现在位置在什么地方,有多大成长空间,如果基础知识不够可以学习,如果数据集不够我们可以提供数据集等等,真的希望每一位老师、每一位学生都考虑参加。可能有的学生说,看起来很难我不会做怎么办?每个领域我们都会提供基础的算法,比如你不需要从无到有打造完整口语翻译引擎,是在我们基础之上去做的。
蒋涛:一般公司会有自己的主研方向,但是还有很多新的场景可以挖掘是吗?
张宏江:是,尤其当一个小公司开始考虑某一个方向时,很快用数据验证或者是看到数据会产生新的创意、新的应用场景。
蒋涛:创新工场人工智能研究院的研究方向能分享吗?
李开复:我们整体看好的方向还是基于大数据的AI,不用搜集更多信息,已有数据就可以产生价值,这些领域在互联网的电商、广告、金融、保险、贷款或者是信用卡、券商、量化交易这些领域是最快能够看到效益的。长期的话我们还是认可无人驾驶作为重要行业发动引擎,再辐射到机器人领域。我们最近看了一些美国的公司。有的类型的公司中国还有欠缺,比如像IBM的Watson,针对企业需求开发数据,在医疗、零售、教育等等领域都会产生价值。
蒋涛:头条是AI驱动的公司,您对AI人才,包括比赛怎么看?
张宏江:刚才问到我们为什么要做大数据、做比赛,对我本人有什么意义,我觉得这就是一个水涨船高的事,当你有更多数据让更多人用数据,就能提高他们的水平,就能培养更多的学生。一个月前我到斯坦福和伯克利花了一点时间,就像20年前读博士一样跟那边的学生、老师,让他们每个人讲讲他们做些什么。我整体感觉还是非常非常受启发的,他们博士平均的水平和他们对问题的把握,做出研究的领先性或者是创造性跟我们整体国内比起来的话,还是平均值要高很多。往外看的话整体水平跟美国还是有差距的,人才还是有差距的。
我认为新的问题把握,提出把握和解决上我们还是有很多很大空间去改善。我记得在以色列3月份去做过一个讲座,提到以色列人才最好跟中国合作;那么AI就像移动互联网一样,也要中国和美国双赢。中国有人,中国有市场,在人才方面还是有事情要做,我希望我们今天做这件事促进中国在这方面的发展。
蒋涛:小川你们的AI战略是什么?
王小川:两年前我们在讨论一个事:中国在AI时代会不会落后?我当时有一个担忧,2年前的数据互训前10大公司里面中国已经有4家了,5年之后可能一半甚至超过5家都是中国公司。中国公司在互联网公司,AI走出去我们是处于领先位置。但一旦说到高校,前100所学校只有只有2家,而且不在TOP50里面,高校里面相对落后。背后人才的储备,不像谷歌这样的,AI的人满地都是,我们能够捞几个,国外引入几个,都是很幸福的事情。依赖中国高校基础人才供给上有差距的,总体上有巨大缺口的。但今天看起来我觉得还是有希望,中国公司跑得真的很快,现在公司都在反哺高校,让小创业公司能够有起步。今天做这件事情是有非常大意义的,中国在AI里面就可能继续推动,5年后就会把美国压在下面,如果做不到,我们好不容易建起来的全球领先领域又掉回去了。
刚才说到我们战略来讲,我内心有一个东西,今天随着深度学习的发展,语音和图像得到了跨越性的发展,语音图像在深度学习时很快就达到一个新的高度。文字难度大一点,深度学习对文字解决非常有限。语言背后承载的抽象的东西,有知识和推理,语言的内涵更丰富。我们语音识别做了很多,用户量最大,但我始终认为我们专注点在语言上。我们之前做搜索、输入法都是以语言为核心的。翻译在语言里面最简单,之后还有对话问题、问答问题。所以我们说翻译切入,我们背后做的是对话的机器和问答的机器,这是我们在AI里面所干的活。
张宏江:我非常同意王小川说的,我们今天看AI的话,在识别人脸、识别人的行为、识别图像接近人的精度,但在语言这块差的很远。翻译这件事已经让我们觉得很头疼了,真正理解文本、理解对话,从简单的几句对话中间推演整体上下文的意义,这需要有更多的研究、更多公司来做的,这也是今日头条一个重点,大家认为今日头条是一个内容推荐引擎,其实更重要的是创作的平台。今天你写了一篇文章可以通过今日头条来给你审一下,有没有语法错误、前后归置,如果都没有问题的话,给你建议哪个题目比较合适,帮你找一下哪个图文比较合适。这中间涉及到很深层语言理解,我们也希望跟同行一起,不光是把产品做好,而是AI上的研究。
蒋涛:挑战赛针对全球的策略是什么?
李开复:我们一开始希望针对全球,因为我们要让它快速启动,是对全球开放的,很多里面大部分参与者是来自中国,我们在美国没有看到类似的活动,如果我们能够作为抛砖引玉第一期活动,第二期希望有更多公司贡献更多数据,我们大家拿出更多资源、金钱和标注,让它成为真正改变全世界的数据库。
在美国很多的领域,因为之后就没有然后,语音、语料方面也就是到了一个极限,很多自然语言都说英文。我觉得有中国的元素让大家知道世界最重要语言之一是中文,真正愿意让资源拿出来让全世界参与,这是我们的目标。
蒋涛:会有更好的数据集发布是吗?
李开复:我们已经在收集更多更有意思的数据。
王小川:我觉得之前是非常落后的,在科研精神、论文、数据分享上远远走在美国的后面,所以这个事情是需要改变的。国家提倡,企业不仅要响应,也要非常踊跃地做出自己的贡献。真正让数据分享走在前面之后,中国科研才能有一个超越。现在研究语音拿英语做实验,研究语言也拿英语做实验,我们国内写论文,优先他们转。现在我们要用自己的数据做贡献,把研究能力提上去。
张宏江:开源这件事情已经做了很多年了,开源社区,各个公司、非盈利机构、盈利机构、大学、个人贡献,大家已经形成一套规律,我们希望通过我们这次数据分享也能够引领更多中国企业、中国的个人、中国学校参与进来,把开源的想法能够真正变成我们的实践,投入到我们日常工作中去。
(参赛选手可登入活动官网challenger.ai,了解比赛信息、评选细节)