专访腾讯杰出科学家贾佳亚:优图将成视觉AI的IP输出者
腾讯杰出 科学 家贾佳亚
文/深网 韩依民
今年7月底,很多人的朋友圈被一组军装照刷了屏。
刷屏的军装照由互动H5《快看呐!这是我的军装照》生成,其个性换妆由腾讯天天P图人脸融合技术和腾讯优图实验室人脸识别技术共同提供技术支持。优图实验室为腾讯旗下专注计算机视觉方向的人工智能研究团队,他们的研究成果已经通过许多类似“军装照”的产品被海量用户体验过。
有趣的体验背后离不开研究、开发人员的努力工作,最近,腾讯优图实验室交出了一份最新的成绩单:2017年ICCV会议即将在意大利威尼斯举行,优图实验室有12篇论文入围。
今年5月15日加入腾讯的香港中文大学终身教授贾佳亚博士,如今在优图实验室任杰出科学家,拥有学术界的丰富经历和经验,贾佳亚成为链接团队与学术界,为团队在基础研究与应用研究中寻找连接和落脚点的关键人物。
在奔赴威尼斯参加ICCV前,贾佳亚接受深网专访,对优图实验室此次入围的论文以及实验室的基本情况进行了介绍。
2.1%的背后
12篇论文入选ICCV,普通人可能并不容易理解这个数字的意义。
在人工智能时代,国际顶级学术会议的论文入选已经成为评价一个团队技术、研究实力的重要参考。
作为计算机视觉方向的三大顶级会议之一,ICCV( IEEE International Conference on Computer Vision,即国际计算机视觉大会,由IEEE主办)集中展示着全球计算机视觉研究的最前沿,代表着当下计算机视觉研究的最高水平,重要程度不言而喻。
本次ICCV共收到2143篇论文投稿,621篇被选为大会论文。其中,口头报告(Oral)共有45篇,亮点报告(Spotlight)共有56篇。优图实验室此次有12篇论文入选为大会论文,其中口头报告3篇(该类论文仅占总投稿数的2.1%),亮点报告1篇。这是一个不错的成绩。
优图实验室的研究与惯常中对学术研究的印象不太相同。
在一篇题为《美化人像的盲复原》(Makeup-Go: Blind Reversion of Portrait Edit)的论文中,团队成员提出了一种新的深度网络结构、成分回归网络,对美化图像进行盲复原。该网络可以在不知道美化系统具体参数的情况下,更好地将美化后的图像映射为原始图像。实验表明,该网络在不同尺度上均可以得到较高的还原度。
复杂的原理实现的结果并不难理解——这一研究即为美颜图片进行“卸妆”,听上去显然并不十分严肃,但这篇论文不仅入选了ICCV,还被选为大会Oral报告。
计算机视觉具有自身的特殊性:应用性强。在贾佳亚看来,计算机视觉研究主要是在做结果,“如果结果好,那么这个研究至少已经赢了一半上,此外,研究有足够多的创新性、新的架构以及有对新问题的理解,都可以发表论文。”
这正是“卸妆”研究为何能成为ICCV Oral报告之一的原因。
贾佳亚介绍,此次优图实验室入选ICCV的12篇论文,要么是研究方向本身独一无二,要么是现有结果大幅领先了已有算法,达到了更好的高度,能够对实用化产生促进作用。
除了类似“卸妆”的应用类研究,论文《高质量的手机双摄图像匹配和分割估计》(两个摄像头怎么样把信息融合起来,使得产生的效果比一个摄像头看起来更好)基于实验室的自采数据则是提供了绝无仅有的研究结果,这些论文都具有很高的理论及应用价值。
“我们这十几篇论文里有智能卸妆、超分辨率、双摄的融合、滤镜的还原、智能的图像缩放等,都是有极大前景的应用,它们在创造了新应用的同时,又改进了现有的算法,为后续研究提供了更多经验。”
应用研究为重
由于论文发表的周期性,此次入选ICCV的论文已经不能完全反映优图实验室当前的研究方向。
贾佳亚介绍,入选的12篇论文是从今年年初开始操作的,当时偏重比较基础的、新颖的或者相对较长期的研究。但是结合腾讯的优势和需求,优图实验室的定位将更偏重应用。
“如何在像腾讯这样的大平台上做出一些有趣的应用,是我们研究上比较看重的东西,所以实验室大部分以应用研究为主。”
目前,计算机视觉方向有三大仍待攻克的难题。
一是模型复杂、不统一,随着图像数据量的加大,模型会越来越复杂,对于每一个问题都要分开考虑,是否有一个模型能解决所有问题,是仍需要探索的。二是由于模型复杂,很多问题在手机端实现就更不容易,由于手机的芯片、计算模块不一样,即使是同一个模型在手机端的实现也会遇到很多挑战,因此,很多学术界做出的东西在产品实现上会碰到壁垒,如何在前端实现功能,需要工业界去尝试。第三,也是最难攻克的技术难题是,很多垂直领域需要深耕。
优图实验室的研究即是围绕三大难题展开。贾佳亚介绍,实验室首先肯定要对很多垂直领域深耕,目前除了人脸识别,还在研究人脸操作。
值得注意的是,优图实验室希望建立起最适合工业界的研究法则,是既不同于既往工业界的操作,也与学术界的规则不完全等同。
贾佳亚介绍,在过去,国内工业界很多时候只是参考学术界的一篇论文,然后让团队去重现,但是优图实验室希望做到的是每一个产品能够输出一个结果,能够创建模型。
“从早期研究开始都是由我们实现,整个专利在我们手里。”
但同时,贾佳亚也希望优图实验室不但可以专注于偏模型、理论且长期性问题的学术研究,而且希望基于腾讯这个大平台,团队能够做出更多有实际应用价值的成果。
可以将贾佳亚对优图实验室的定位理解为一个桥梁:将学术界的研究成果与应用实现连接起来。
在贾佳亚的设想中,优图实验室的产出是一个完整链条:“实现从早期的研究到专利的发布、专利的获取,到整个内容的发布、产品的运作都是一条龙的运作方式。我们希望以后优图开发的东西,绝大部分的原创性都是非常之高,这可能是这几年之间会发生的相当大的突破。通过论文这种简单的标识可以看得到,变化已经发生了。”
在探索中前行
对于优图实验室的发展路径设想已经成熟,要实现却并不容易。
与国外工业界不同,国内互联网企业过往大多没有建立成熟的研究体系,但随着人工智能时代的到来,工业界必须在基础研究上做更多投入,而国内工业界的特殊性又要求研发团队必须能够在一定时间内有成果产出,这其中存在着难以调和的矛盾。
如何在长期投入与短期回报间寻求平衡,是贾佳亚正在努力探索解决的问题。
构建好团队是实现设想的第一步。
加入优图实验室后,贾佳亚在构建团队上花了很多精力,他希望打造出“三一流”——一流的团队、一流的研究、一流的产品化能力。
“一流的团队就是希望各个领域的精英加入,团队的每个人是一流的,研发人员有好的研究成果发表在ICCV、CVPR等国际学术会议上,开发人员能够保证编程的效率和可用性。我们是木匠,技术是锤子,锤子靠研究搭建,我们把学术界的东西拿过来再重新重现,在学术界还没有人去做这个事情的时候,我们就开始研究它,得到一整套的研究方法,这是一流的研究。一流的产品化能力就是指研究完的输出。”
除了团队外,在团队的工作方式上,贾佳亚希望学习 谷歌 ( 微博 )的二八法则:员工80%的时间用来做公司当前的业务,另有20%的时间用来研究和探索自己感兴趣的更为天马行空的事情。
“我希望在优图团队能够引入这个经验,我给很多同事80%的时间做一些时间紧急的研究需求,他们会去进行研究。但是我们有20%的时间,希望他们能够多想一想,接下来几个月,或者是半年到一年时间,他觉得他有没有兴趣把某一个问题去做好。”
在更为基础、前瞻性以及冒险性的研究上,优图实验室通过与高校合作来进行。
此次入选ICCV的12篇论文中,有11篇是由优图与其他研究机构合作完成,对此,贾佳亚表示,这种情况的出现正是基于以上考虑:希望团队在全力以赴完成技术研发及应用落地的同时,也能与高校及合作机构等尝试更多冒险性的研究。“团队想做一个探索,我们与合作方共同研究、交流并验证。”
综合短期、中长期目标,整体调配团队的资源投入,这是目前贾佳亚为团队寻求的运作方式:“短期内要花很多力气去做好,但是从中长期考虑,我们并不放弃,希望团队能够不断地有前瞻性,在学术界里面比较前沿的东西我们依然着手来做,这可能是我们比较好的平衡。”
对于优图实验室接下来的关注重点,贾佳亚介绍,基于自学习或半监督、弱监督的学习方式,在小数据量或无数据量、无标注数据的情况下,能不能实现机器自动去学习自然世界的问题,通过图像或者视频分析有可能发生的事情,将是团队关注的新方向。
贾佳亚不吝于分享他对优图实验室未来的期望:优图会成为一个很大的视觉人工智能IP拥有者,同时是一个创新者、领导者。
“这是我们一直在做的事情。”