华为诺亚方舟实验室田奇:学术界和工业界具有互补性,人才培养是核心
12月6-8日,为期三天的“2019世界创新者年会”在北京顺利举办。本次大会由中国企业联合会指导, 由亿欧·EqualOcean、工业和信息化科技成果转化联盟联合主办,本次大会以“科创4.0:共建全球化 新未来”为主题,集结了来自美国、英国、印度、新加坡、印尼、尼日利亚、巴⻄、日本、以色列等 十余个国家或地区的6000名创新者,总结2019年世界科技与 产业创新 的成果,预测2020年最新创新趋势。
本次论坛邀请了 华为 诺亚方舟实验室计算视觉首席科学家田奇教授、氪信科技创始人兼CEO朱明杰 博士、文安智能创始人陶海教授、魔珐科技创始人兼CEO柴金祥教授、MINIEYE创始人兼CEO刘国 清博士、联想创投董事总经理王光熙、达观数据创始人兼CEO陈运文博士、踏歌智行创始人兼首席 科学家余贵珍教授、小鹏汽⻋首席科学家郭彦东博士,共同探讨和分享作为科学家创业者在创业路 上的收获与感悟,探索科学技术与商业化的结合机会,助推产学研领域协同发展。
其中,华为诺亚方舟实验室计算视觉首席科学家田奇带来了主题为“科学·企业家,双重身份下何为我 眼中创新者?”的演讲,演讲的核心观点有:
学术界和工业界具有互补性,学术界对工业界价值就为工业界源源不断的输送人才,为工业界提 供前沿的方向,同时学术界对性能的极致追求为工业应用打下坚实的基础。工业界对学术界的价值 是反馈学界人才回流。
学术界和工业界的侧重点不一样,学术界更关注方法的理论化、通用性、探索未来和启发式的认 知水平。但是工业界更注重于商业价值,更注重方法的使用性。
创新应以人才为核心,人才培养是其中最大的中心。
以下为演讲实录:
各位嘉宾早上好,非常感谢组委会对我的邀请,我今天报告的题目是“双重身份下何为我眼中的创新?”我 来自华为诺亚方舟计算视觉实验室。这是我报告的目录,第一部分是我学术和工业界的背景以及诺亚方 舟实验室的介绍;第二部分是“在前沿创新的研究和业务落地之间的AI使能鸿沟”,以三个例子来说明一 下;最后从学术界和工业界的⻆度来思考什么是创新?
刚才也介绍了我2002年博士毕业于伊利诺伊香槟分校,从2012年开始加入德州大学分校,从计算系助理教授到副教授,再到教授一共做了17年的老师。
在2008年到2009年我利用学术休假,在微软亚洲研究院,担任主任研究院做了一年多的工作;2010年至 2015年受清华大学张华老师邀请,回到清华大学神经与认知中心做客座教授;2011年到2014年在 NECChina当顾问;2016年获评IEEE;2017年获评教育部⻓江学者。这就是我在学术界的一些经历。
2018年夏天,我利用学术休假加入到华为诺亚方舟计算视觉实验室,在今年9月份辞掉了在美国的终身教 学职位,现在全职加入了华为,所以我现在身份是在工业界。当然大家可以看到我大部分时间是在学术 界,在工业界的时间还不算⻓,所以只能在这里谈一些个人的浅⻅,算是抛砖引玉吧。
我供职在诺亚方舟计算机视觉实验室,诺亚方舟目前有几个组:计算视觉、自然语言处理、搜索、推 荐、决策推理、机器学习,仿真学的人机交互。以支持产品部⻔、企业智能、网络智能、终端职能、终 端智能手机拍照大屏,还有一些信息的业务,例如 无人驾驶 对我们来讲也是微感知传感器融合。
华为的AI使能鸿沟,通过和全世界25所高校的合作,很多研究人才加入了这方面的合作。诺亚方舟的愿景就是让AI使能鸿沟、世界级的产出建立顶级的AI大学,来帮助公司实现AI战略的转型。
我们在欧洲、伦敦、巴黎、莫斯科、加拿大多伦多、蒙特利等地都有布局。在中国的深圳、上海、北京、⻄安、香港等都有相关的研究同事。
下面介绍一下我们前沿的创新研究和业务落地之间,发现所谓的AI使能鸿沟,我讲几个例子:
首先,学术界和工业界的侧重点不一样,大家都知道学术界更关注方法的理论化、通用性、探索未来和 启发式的认知水平。但是工业界更注重于商业价值,所以更注重方法的使用性,针对某一个特定的问 题,提升用户体验,带来实际的价值。 所以学术界和工业界优化的目标不一样。其实在华为,可以借助华为的大算力、大数据的平台,应用华 为AI芯片支持我们前沿的视觉研究。
我们的视觉研究分成六个方向:底层视觉、语义、理解三维视觉、数据生成、视觉计算、视觉多模态的 融合,这是我们聚焦的基础研究方向。应用场景包括自动驾驶、平安城市、终端视觉等。由于前沿研究 和应用场景它之间的优化目标不一样,所以存在着AI使能鸿沟。
下面我以自动驾驶的的目标检测、平安城市中的行人站识别和终端识别中轻量级网络的设计,来讲一下 AI使能鸿沟的问题、工业界是怎么处理的。
首先以自动驾驶的检测为例,左边是学术界研究的目标检测,它的数据标注比较干净、准确,但是工业 界的场景更加复杂,有很多有噪声的标签。比如右图的Car被标注成了巴士了,左边有一个巴士被错误的 标记成了Car了。
处理带有大量噪声的数据有两种办法,一种是直接处理噪声的数据,从设计惯性的算法,自动分类反应 上升的标签从而进行修正或者丢弃;另外一类就是设计半监督和无监督的方法,使得我们的模型能更好 的泛化在这一弱标签或者无标签的样本上。
学术界的目标检测,从目前使用最为广泛的来讲,类别和类别之间分类比较清楚,图像比较清晰,一般 都有比较良好的光照条件,准确率可能是唯一。但是工业界的自动驾驶中,我们收集到的数据类别可能 分布不均匀,也就是标记成本比较高,想象层比较多,所以一些⻩灯和交通锥桶等这目标标注样本比较少。
同时,不同应用场景分类的语义有时候比较难以确定,需要组合标签。例如载人三轮⻋,首先要进行人 的标注,再进行三轮⻋的标注,最后再形成一个组合标签。
在数据采集的时候,反而要采集一些图像资料比较模糊,光照条件比较差的图像。比如暗光和误报的一 些场景,这样是为了让更好的训练我们的算法、提升系统的性能。
在评价标准上,主要看一些具体的应用,比如检测一些关键的障碍物来制定我们的产量、存量和评价标 准。
学术界中目标检测,以最常用的目标检测模型,不太考虑数据分布的不均衡性及各任务之间的依赖关 系,我们的解决方案是要设计考虑一些计算量小的网络模块,采用多目标、多分枝的设计来解决目标检测。
第二个例子我以平安城市中的使能站识别为例,左图是学术界做行人站的识别,它的场景相对比较单 一,是城市或者上空。行人站识别两个最大的图像数据集就是多场景、多时间段的两个数据集,都是我 们这几年做的工作。
但是工业界使能站的识别,是针对城市群的大规模复杂场景,所以它的条件很难被约束成为理想的条件。那么以这个多场景、多时间跨度的数据集为例,包括4101个行人,标注行人大概12万方有15台摄像 机,采集了室内、室外两种场景的情况,行人的假定能够被很好的解析出来,准确率是唯一一个评价指标。
在工业实际场景中,要面对的是几十万个这样的行人ID、几千台甚至几万台这样的摄像机、几万张 亿级别甚至更多行人的智能图像,针对校园、社区、街道等多种场景。我们也有园区的项目,经常出现 检测不准或者错误非常严重的情况,所以不光是准确率,我们还要考虑模型的大小和速度等。
在行人识别中这是一个非常常用的识别模型是基于人体、部件等等。这是我们在2018年的工作,主要是 说一个图片整体分成多个模块,让不同ID之间能够区别开来,从而提升系统的鉴别能力。
工业场景中如果用这个方法就比较危险,因为工业数据量特别大,不同的ID之间存在非常相似、甚 至相同的一种模块,如果还是把相似的模块完全分开,就有损特征的提取,从而导致系统性能的急剧下降。
另外,我们如果把预训练的系统部署到新的场景下,这一系统的性能会下降很快,一个解决方法就是场景迁移,所以在2018年我们华为学生提出了一个方法来缩短数据的鸿沟。这一种算法提出来后,当然对系统性能是有一些提升的,但是如果应用到实际的工业场景中,生成的图像的质量还是比较差的。同时 也引入了大量噪声,虽然对系统性能带来一定的提升,但是它的天花板效应还是比较低,不能满足工业 界的要求。
我们的解决方案解决的是如何把一个新的系统探索和部署到新的场景下来,过去它是偏重于跨摄像机的 标注,因为人被不同的摄像机捕捉到,多进行标注。但是我们的解决方案将跨摄像机的标注转为单摄像 机、单摄像头的训练模式,我们只标注行人再一个摄像头下的数据。因为在一个摄像头下,行人的检测 会变的高速自动化,从而极大的减少数据标注的成本和时间。
最后以华为终端视觉轻量的神经网络为例,在学术界轻量级网络在保持准确率的同时,注重如何减少计 算量或者减少模型的参数和模型的大小。但是在工业界要考虑真实硬件的一些指标,比如能耗、速度和 内存等,所以很难用理论的指标。
那么学习计算机的网络,例如计算量和模型参数的方法,虽然计算量和模型参数降低了,但是实际的速 度还是比较悲观的,现在工业界的一些轻量级计算偏重于像谷歌、V2这类引入深度分裂的模型,这就提 出了通耗混排的操作,在A3使用NASS的技术进行网络结构搜索。但是存在一些问题,我们要充分的利 用特征之间的融性,适配特定的一些硬件。
2018年轻剂量级模型常用的思路,就是交叉通道。交叉通道之间的信息可以得到更好的应用,但是交叉 的操作对硬件的实现是不友好的。这种操作对于内存和存量存在着不连续性,所以会导致硬件运行效率的降低。
我们在今年提出了以廉价的线性变换来换取更多的特征,这样对计算资源的需求同时因为廉价的线性变 换对硬件友好,所以可以更好的达到这一个目标。
最后,我主要从学术界和工业界的⻆度来看什么是创新?学术界和工业界显然具有互补性,学术界对工 业界价值就为工业界源源不断的输送人才,为工业界提供前沿的方向,同时学术界对性能的极致追求为 工业应用打下坚实的基础。
工业界对学术界一个价值是反馈学界人才回流,我觉得人才相互流动是一个正常的现象,而且在实践中 给学术界带来一种新的方向,最后系统的整合学术界提供一种全局的布局。所以学术界和工业界应该形 成互补互益、⻬头并进的状态。
在领域中也存在很多双重身份,从学术界到工业界的人,他们的思考我也来分享一下。颜水成是新加坡国立大学的终身教授,也是前360AI分院的院⻓,现在是依图科技首席技术官。他认为学术界的研究是否 成功,关键是要看技术。另外需要提炼解决问题的方法。学术界节奏可以放慢一点,一个输出需要几个 月甚至半年的时间,但是工业界只要能解决问题就是好的 人工智能 。
香港中文大学的汤晓欧,也是商汤科技的创始人,他说中国的人工智能要做好三件事:第一要坚持,把 基础做好;第二要创新,要做新的东⻄;第三要把飘在上面的东⻄落地、做产业化。香港中文大学的贾 佳是亚腾讯优图的杰出科学家,他的观点就是“技术要上天、产业要落地”。
还有大家更熟悉的李⻜⻜,是斯坦福大学教授,前谷歌云人工智能的首席科学家。她认为科学到科技再 到产品就像一个4×100接力赛,每一棒都有它特别的功能,学术界应该是4×100的第一棒,工业实验室是 第二棒,产业和投资是第三棒、第四棒。
最后是纽约大学图灵奖的获得者,现在也是Facebook的科学家。他认学界和业界的双重联盟,可以同时 为学界和业界做出贡献,不仅推动了云识别、图像识别、文本理解和语言翻译技术的进步,同时也带来 了理解智能的基础科学进展。
这是业界其他双重身份的人的真知灼⻅。在我看来创新的核心要素是什么?我认为创新应以人才为核 心,人才培养其实是一个最大的中心。针对三大要素中计算视觉算法、算力和数据,学术界更多是以精 巧的算法设计⻅⻓,但是工业界在算力和数据方面,有更大的优势。大算力、大数据给工业界带来更多创新的可能。
人工智能行业对人才的需求是非常旺盛的,工业技术对学术界对人才的吸引力主要体现在计算能力、平 台、数据、机遇、合作、干预、成⻓、落地等方面。工业界对人才的争夺已经白热化,不管是中美,大 家都可以看到对人才的争夺。
什么是工业界需要的人才?主要有几点,第一个是要专注于你的领域,并且具有创造力的人才;第二个 是对多个领域有理解力,并且有合作的能力的人才;第三个是能够把技术真正做落地的,懂人工智能产 品的人才。比如站在客户的⻆度,人工和社会需要什么?站在应用场景的⻆度人工智能可以做什么?技 术和产品双驱动,了解产品的需求,了解用户的体验,把算法、数据、计算能力充分的发挥。
工业界也要能够发现新业务方向,一些舵手结合业务场景、商业模式、具体应用(比如自动驾驶、智能 家居、平安城市这一些产品)如何带来商业价值的成功。
最后,AI的应用要以人为本,我们要找理想经济的人才,在功能完善的的基础上,要考虑人们的精神文 化需求,比如陪护机器人对老人和小孩的陪护。
学术界需要什么样的人才?首先做基础研究。从源头做起,眼光要⻓远,注重技术的创新。问题要从工 业中来,结果要到工业中去做实践。
学界和工业界人才的培养方式的区别,打一个比方,学术界就是,我提供一个新的算法,同时把这算法 交给他人,提炼新方式。对工业界来讲,主要着重于找到最合适的方法来解决问题。但是共同点就是需 要理论基础扎实、工程能力强、善于合作和创新的AI人才。所以要利用这双重身份把学术界和产业界紧 密连接,为培养AI人才提供最好的方式。
对于华为来说,利用跨界身份的优势把学术界高水平的研究和工业界的优质的产品实践结合起来,找到 一个创新性的人才培养模式,帮助我们实现向上捅破天、向下扎到根这种全站式的研发,是我们要做的。
我们培养人才的战略,是与高校联合来探索培养学生科学化的方法,与高校学者举行学术沙⻰和内部的 交流。在工程能力培养方面,邀请专家定期进行员工的培训,同时以白皮书的形式分享AI课程,走出温 室,走出外部培训我们的员工。最后利用公司强大的数据资源和算力平台支撑,经常做企业文化的传播,像今天这一个活动一样。
最后在高校培养AI人才有一些建议。不仅要培养很高的专业素质,也要有很强的工程能力;课程AI变化很快,要注重课程的内容及时更新;设置多学科的交叉专业,同时鼓励本科生、甚至高中生尽早的接触前 沿;人工智能方面,要鼓励同学多参加程序设计的课程学习,与工业界展开合作,鼓励学生多参与工程 的实习;最后鼓励学生创新、产品孵化和AI创业。
以上我发表的一些关于创新的浅⻅,谢谢大家。
版权声明
本文来源亿欧,经亿欧授权发布,版权归原作者所有。转载或内容合作请点击 转载说明 ,违规转载法律必究。