痴迷图像的汤晓鸥,生命定格在人工智能视觉的巅峰上
汤晓鸥总能在他演讲的前两分钟把听众逗笑。在2018年的一次MIT组织的演讲里他这样开篇:我知道今天观众很多是说国语的中国人,所以我决定说英语。在某一年的云栖大会上他说,我听组委会跟我说有一千万人在看,我非常紧张,所以我做了一百页的ppt,十万人一页,组委会很紧张,问我会不会超时,我就保证说,一定会的。
他是商汤科技的创始人,在那之前他是计算机视觉界论文最多研究影响力最深的人之一,被业界称为全球人脸识别技术的开拓者。同时他也是浦江实验室主任,上海人工智能实验室主任,这些实验室在今天的大模型浪潮里也十分活跃。
而在一切头衔之外,他给人的第一印象更像我们都遇到过的那些比相信自己学术成就还更相信自己幽默感的老师们,偶尔糟糕的冷笑话最终挡不住你想要在学业上追随他的冲动。在讲究师傅带徒弟的AI界,汤晓鸥的门徒也是光彩夺目。除了一起创办商汤的徐立,ResNets一作,被誉为大神的何恺明、全球最有影响力的CV开源项目 OpenMMLab的主导者林达华等也是他的学生。
因此当12月16日,噩耗传来时,一切显得更加的不真实。
当天下午时分商汤科技及汤晓鸥教授治丧工作组发布了讣告,宣布了这则令人悲痛的消息。讣告称,55岁的汤晓鸥因病救治无效,于2023年12月15日23时45分去世。
甚至许多人是在和汤晓鸥同在的群里得知消息,之后悼念和感慨蔓延开来。而AI界的许多悼念都以分享和他之间过往的直接接触展开,有人回忆当时做实习生时,他给大家组织的各种有趣的活动,“他是我见过AI圈里最有趣的人”;有人分享在和他一起参加的学术会议上,他的风趣幽默,以及勤奋“当年我们在欧洲参加会议趁机到处去景点,而他却关在旅店写proposal”;请他帮忙撰写过研究生,博士和学术委员会推荐信的人们,也都在感慨着他的认真和亲和,“他还会提醒我避免中国人习惯性的谦虚,要更好地展示自己的成绩”。在他的公司和研究院工作过的人们称赞他带来的远见和领导能力。
“天妒英才。”这是人们普遍的感受。
资料显示,汤晓鸥1968年出生,出生于辽宁鞍山,1990年从中国科学技术大学毕业;1991年获得美国罗切斯特大学硕士学位;1996年获得麻省理工学院博士学位,之后进入香港中文大学工作;2001年创立了香港中文大学多媒体实验室;2005年至2007年在微软亚洲研究院工作,担任视觉计算组主任。
在这期间,他的个人志趣和学术,商业以及整个人才生态的贡献逐渐统一在一个事上:图像和视觉。
据商汤CEO徐立的一次回忆,他曾和汤晓鸥有过深入讨论,最终两人达成共识:人工智能这个技术改变世界并不需要那么多人,可能只是一两个人的事情。
对于视觉的研究也显示出这样的思路,他的实验室并没有追逐当时最简单热门的课题,而是选了一个从今天的视角来看,充满对技术趋势的准确判断和捕捉的方向:深度学习。
汤晓鸥带着他的实验室在2011年就开始把重点研究都投入到了深度学习上,这个今天几乎一切AI成就的技术底座,在当时远远不是显而易见的选择,就像汤晓鸥所说,在当时它只是一两个人在研究的方向。在2011年到2013年间,全球顶级计算机视觉学术会议上,有关深度学习的文章共29篇,其中14篇是来自于商汤团队前身,几乎占了一半。
但这种独到的判断带来的积累后来成为商汤吸引投资人的重要因素,也让汤晓鸥给商汤聚集了一批中国深度学习的人才,再次给自己创办的这家公司以及AI行业的未来埋下伏笔。
汤晓鸥的学术与创业经历都围绕图像展开,而这一切又都来自他自己最朴素的好奇心和兴趣。
“这项技术能干什么?它能植入广告。”在多个公开演讲里他曾这样半开玩笑的直白讲解CV技术的用途。在这些演讲里他也总是会展示一张照片,这是一张他的儿子小时候的照片。“不过我今天最想植入的是这张图片。”
根据他自己讲述,他在北京和香港两地工作,当时才两岁的儿子是他最深的牵挂,他开始频繁地给儿子拍摄照片,相册几乎涵盖了孩子成长的每个瞬间。直到照片积攒到成千上万张时,他意识到分类成了难题,想在海量照片里找到某个时间段或某个有趣瞬间的照片非常困难。而他的解决方法是,让学生们来。
于是他开始研究名为Photo Tagging的课题,采用计算机视觉的技术手段来给相册进行分类整理。这成了后来他们很多技术突破的起源。
他的很多决策也都像这个故事一样接地气。汤晓鸥1997年到香港中文大学任教。2001年7月创立多媒体实验室,主要研究系统性能与人脸识别。据《财富》早年的一篇报道称,他当时发现香港招不到最优秀的学生,顶尖学生追求去美国读书,不愿留下做动辄数年的研究工作。然而与其他老师纠结于此不同,汤晓鸥立刻找到了解决方法:“学生要去美国,那自己就做学生最有利的跳板,但我的实验室只送你去全球前四学校,而且你要足够勤奋”。
而这个策略如期带来效果,汤晓鸥的学生被麻省理工、斯坦福等名校录取,然后国内最好的学生都想来他的多媒体实验室,再然后,他们发现自己可以从这里直接进入最好的公司,再然后人们就不再把它视作跳板,而最终他领导的多媒体实验室成了全球最顶级的实验室之一,有了后来中国AI黄埔军校的称号。
这也像是他一生在学术和产业界的缩影,凭着朴素的好奇心和兴趣,在初心推动之下以接地气的策略以及近乎痴迷的勤奋努力,散发魅力,聚拢天才,朝着一个目标前进,最终一起做出世界领先的成就。
在研究室,他和学生们一起投入到图片视觉技术的进步上。其中,2009年他和学生何恺明、当时在微软亚洲研究院的孙剑共同发布的论文《基于暗原色的单一图像去雾技术》拿到CVPR 25 年以来第一篇由亚洲团队产出的最佳论文。
这篇论文简单来说,讲的是他们发现的一个新特征,即在任一普通图像的任意小块内,总有至少一个点的一个原色通道的数值接近于零。基于这个更接近图像本质的发现,对图像的许多处理有了更高效的解决思路。
那一年,汤晓鸥也凭借在模式识别和视频处理方向的成就入选了IEEE Fellow (全球电子工程领域最高荣誉) 。而这个论文在技术价值之外,带着那么点浪漫主义的味道。汤晓鸥也曾经把这种浪漫与他追求的科研道路做类比:自然图像已经被研究了几十年,还是能发现全新的图像基础特性。
“就像在暗原色中寻找光明一样。”
到2014年,汤晓鸥带给机器视觉领域一次“奇点时刻”,他的团队当年发布基于原创的GaussianFace人脸识别算法,在相关权威基准评测上达到98.52%的准确率,首次超越人眼识别能力。同年商汤科技成立。这样的学术理想主义的气质也带到了他创办的商汤。
在早年的一次和学术圈老友的私下分享中,他这样解释对创办公司的思考:“即使有了深度学习,计算机视觉还是需要很多基础的创新性研究,才能更好地在实际应用中发挥作用。所以,商汤希望能和大家开展更多的合作。”
2021年12月商汤在港交所上市,最新的财报信息显示,汤晓鸥持有商汤20.63%的股份。
AI今天发展太快,以及大环境的变化,都在让人变得健忘。但某种程度上汤晓鸥当年带领团队带来的突破,其实就像今天语言模型的进步一样,AI第一次突破了人类的水平,成了可以广泛应用的技术。他和商汤的许多尝试对今天处在产业井喷前的新一轮AI依然有很大启发。
而同时,计算机视觉的发展也在突破临界点后来到今天的技术巅峰,并且等来了终于也拥抱了深度学习的语言领域的突破,今天的大模型正在进一步结合视觉的能力,以多模态的形式进化。
但痴迷图像并且一手参与推动图像视觉技术到达今天高度的汤晓鸥,潇洒的生命却永远定格在了人工智能视觉的巅峰上。
“他学识渊博、治学严谨、求真务实、开拓创新,富有家国情怀和战略眼光。他甘为人梯、奖掖后学、矢志创新、勇担重任,把全部精力奉献于计算机科学研究,积极推动原创技术发展,为我国人工智能领域科技事业发展作出了卓越的贡献。”悲痛的讣告中这样写道。
“他二十多年来悉心培养学生,桃李满天下。他们将传承汤晓鸥教授的精神和理念,在发展人工智能的道路上勇往直前。”
本文来自微信公众号: 硅星人Pro(ID:Si-Planet) ,作者:王兆洋