金出武雄和他的中国学生们,计算机视觉五十载风云
突破性的成就对金出武雄来说并不新鲜。
自上世纪八十年代以来,金出武雄(Takeo Kanade)一直是卡内基梅隆大学的基础。
他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM),只要是与计算机视觉技术的相关项目,总能看到金出武雄的名字。
但这并非关键,当他在这所学校工作了十多年后,一则所长的任职才将他的后半生拉开帷幕。
这涉及卡内基梅隆大学的机器人研究所,能否将技术创新推向高潮。1992年,金出武雄从创始所长罗杰·瑞迪(Raj Reddy)手中接过任命函,意味着这位从日本而来最初只有研究员身份的学者,彻底被美国敞开怀抱。
压力不言而喻,但金出武雄设法做到了。
一用灯塔光环招揽全世界精英,二以本所为纽带,联合匹兹堡大学等多校学术资源开展跨学科研究,自身的技术研究与人才培养水准从此进入全球前列。
用金出武雄的话说:“作为机器人研究所的所长,我得到了一个机会--把研究所发展成拥有200多位研究专家、在全世界最具盛名的机器人研究所的机会。”
多米诺骨牌般的连锁效应一旦开启,卡内基梅隆大学的机器人研究所变成了繁华的学术中心。
水涨船高,越来越多的美国科技公司毗邻而建,投资机会和可用人才也开始增加,形成了一个生态系统。
传言里Uber花大价钱在该校旁买下一栋楼几乎挖尽机器人研究所教授,美国通用汽车甚至啤酒制造厂这种体量的企业都与该所保持着多年合作。那些富有经济头脑的人,靠着从机器人研究所挖掘学生项目包装成公司往外卖,一夜暴富的事情隔三差五就会上演。
无一例外,名师高徒的故事也发生在金出武雄身上。
金出武雄
纵观整个计算机视觉、机器人、人工智能领域的风云人物,里面一定那些有耳熟能详的名字:
沈向洋、韩玫(平安硅谷研究院院长)、陈梅(微软云与AI首席科学家)、张冬梅(微软亚洲研究院副院长)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人),再加上那些与金出武雄合作过的博士后、访问学者,更是不胜枚举。
作为金出武雄的学生,他们既标志着金出武雄的过去,又和金出武雄形成了流动的对照。“学生们”的身份,俨然成了他们的一个符号,相比很多人而言他们起点颇高。
事了拂衣去,深藏功与名。但江湖,记住了金出武雄的名字。
“我们只去美国五年”
金出武雄的人生分成了三段,前段留在了日本,中段留在了美国,现在七十多岁这段才又回到了日本。
他三段经历都值得说道,因为归根到底都是一个主题,让计算机“看”世界。但放在20世纪60年代,这不是一件轻而易举的事情,那时的计算机处理图像速度非常慢,半间屋子是计算机,另外半间是空调,用来散热,数据处理速度更是与今天不可相提并论。
1968年,金出武雄本科毕业于京都大学工学部电气电子工学系,随后六年硕博进入该校堺实验室的“计算机化图像识别”研究小组,师从酒井敏之教授。
金出武雄对计算机图像和声音处理与识别进行了研究。这是当时世界上最先进的研究,也引出了后来的研究课题--创建世界上第一个全面的基于计算机的面部识别程序。
事实上,开发这样一个前所未有的面部识别程序需要很大的勇气。金出武雄曾表示过,“我不想被问到我是否可以做到,当我进入博士课程时,使用计算机处理图像的想法已经开始出现,我认为这是一种应该可行的技术。”
可以大胆想象,金出武雄一切构想的根源都是“我想要这样”,而并不是“能不能实现呢”,他始终抱着一种“能实现”的积极态度。
但是,当时还没有数字图像,没有办法将胶片上拍摄的照片数字化。他不得不使用标尺在纸质照片上整齐地绘制网格线,将其与标准的亮度模式进行视觉匹配,并手动对每个像素进行编号。紧接着,他又不得不在打字机上重新输入,并将其放入计算器中以创建数字图像。这是一项非常耗时的任务,可以称它为“人类数字化图像”。
1970年,大阪世博会,机会来了。
金出武雄设计了一套装置。观众在镜头前坐上3秒钟,等待面部扫描,计算机会将他/她的眼睛、脸颊大小和五官比例与当时的名流对比。作为比对基准的名人大约有5个,约翰·肯尼迪(美国前总统)、温斯顿·丘吉尔(英国前首相)、玛丽莲·梦露(美国女星)。扫描后,屏幕会显示测评结果,“您拥有一张梦露同款脸型”。
这台装置在世博会上大获成功,金出武雄在一次演讲中回忆,约有数千人进行了扫描。但他的两位指导老师酒井敏之教授和长尾真教授(后任京都大学校长)有些遗憾,未能将所有的数据保留形成数据库。
1970年大阪世博会上大获欢迎的人脸扫描仪装置,一名东亚老年男性被判定为“丘吉尔同款脸型”
金出武雄1973年出版的博士论文封面
1977年,金出武雄出版了自己的博士论文,《Computer Recognition of Human Faces》,将基于神经网络的人脸检测技术将检测率提高到前所未有的水平。他因此收到了主要来自美国的采访请求,如《连线》杂志。而且这项前所未有的研究成果,经美国国家科学委员会报告验证,也变得稍稍为人所知。
大概过了三十年后金出武雄对此表态,“我的研究生时代,还好提早拿出了漂亮的成果。”
对于大众来讲,这促使了今天在智能手机摄像头中普遍使用人脸检测。
1980年,当金出武雄获得博士学位,并从助教成为助理教授时,随后便被罗杰·瑞迪(Raj Reddy)招聘到了美国匹兹堡的卡内基梅隆大学(CMU),担任计算机科学学院当时新成立的「机器人研究所」(CMU RI)的高级研究科学家。
罗杰·瑞迪(Raj Reddy) (左)、酒井敏之(中),金出武雄(右)(约1990年在京都大学)
实际上瑞迪的名声在外,他就是李开复在CMU的博士导师,该校机器人研究所的首任所长,1994年图灵奖得主,也是美剧《生活大爆炸》中能说一口地道的印式英语的主角Raj的人物原型。
当金出武雄来到美国两个月后,在一次项目会议上,瑞迪突然告知:“视觉是金出武雄的专长,从今天开始,他将成为首席研究员,负责DARPA(国防高级研究计划局)发起的图像理解项目。”
通常,在美国,除非研究员编写自己的提案并获得预算,否则无法成为项目负责人。但当时如果瑞迪本人或CMU有任何其他人是成像方面的专家,这个机会一定不会如此轻松拿到。同时这也间接证明,瑞迪眼光毒辣,用人大胆,当初把金出武雄招来就计划让他挑起大梁。
但要说为何金出武雄提拔如此迅速,还有一个人不能忽视--艾伦·纽厄尔(Allen Newell)。
艾伦·纽厄尔(Allen Newell)
纽厄尔最大的名号是人工智能的创始人物,五十年代参加了具有历史意义的会议达特茅斯会议,六十年代离开业界,正式加盟CMU,主要精力放在了筹建和发展该校的计算机科学系。刚好在长假的一天,纽厄尔来到京都大学酒井教授的实验室。当时金出武雄是一名助理教授,相当主动地向纽厄尔介绍起正在做的研究。第二天,纽厄尔要去东京参观皇居,酒井教授提议让金出武雄带他参观,促使两人的关系迅速升温。
不过这还得说,金出武雄总是擅长抓住机会和更优秀的人聊天,“我在日本的时候,要是有名字在论文或者报纸上出现过的人来,我一定会见面谈一下,这样的机会一年最多就两三回。”
当金出武雄八十年代来到CMU,赶上了匹兹堡“锈带经济区”转型浪潮,该校机器人研究所抓住当地建立先进技术中心的契机,鼓励师生将其优秀技术商业化运营,与英特尔、苹果、谷歌、IBM、西门子、NEC研究院的合作由此开始。
在这样一个时期,金出武雄等一众研究员被彻底放开手脚,推动计算机视觉技术从实验室走向应用。
事实上,无论是在日本还是美国,金出武雄都严格遵循了日本研究人员的典型道路--在同一所大学建立自己的职业生涯。
但当周围的人问他:“你为什么要离开日本的大学去美国?”这个问题一经问出便意味着,还有一部分人认为美国大学的工作是没有保障的。
然而,金出武雄说道:“我知道美国大学拥有美妙的计算机环境,就像天堂一样,我保证在CMU待上5年,就可以做3倍于日本的研究。现在我35岁,如果加上15年,将是50岁。我想那时我不会再想任何新的事情,我的生命可以结束了。”
金出武雄最终在这所学校待了40多年,带领出一支高水准的计算机视觉研究队伍,而他本人也成为了CMU“吉祥物”地位的中心人物。
自动驾驶?早有人四十年前就玩过了
在美国期间,金出武雄参与了带有人工智能的摄像眼的机器人及其系统的开发等各种各样的研究。
1981年,金出武雄与团队设计出世界上第一个直驱机械臂,包含机器人组件内的所有电机,从而消除了长传动轴。这个研究当时被多家机器人制造商使用,被公认为最先进的机械臂技术之一。
但金出武雄的机器人梦想并不止步于此。自20世纪80年代中期以来,他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,包括CMU的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM)。
金出武雄在卡内基梅隆大学,拍摄时间约为1985年,这年他拿到CMU终身教授职称
就拿无人驾驶汽车(NavLab)项目来说,这是一个开创性项目,旨在开发基于视觉的自动驾驶汽车技术,包括车道保持、自动平行泊车和物体检测。
1984年,在GPS还没有被发明的时候,金出武雄和团队在一处废弃的停车场测试了他们的第一辆自动驾驶汽车。在今天看来,当时的水准不值一提,但从那时起,在美国DARPA(国防高级研究计划局)等机构的资助和推动下,这个项目在1995年夏天一炮而红。
那一轰动性事件就是横穿美国的越野旅行。一辆代号为“NAVLAB 5”的小型货车从美国的东海岸驶到西海岸,它以约100公里/小时的速度从匹兹堡行驶到圣地亚哥,全程大概2849英里(约4587公里),其中自主驾驶部分达到了98.7%。
据Navlab 5的研发成员之一,这趟旅行中乘坐NavLab 5的两名学生,迪安·波默洛(Dean Pomerleau,Navlab小组的联合主任)和托德·约赫姆(Todd Jochem,两人为师生关系)回忆:他们当时花了4个月时间完成车辆的改装和软件调试,总成本不超过2万美元。所有装备包括一台计算机、一台640×480像素的彩色照相机、GPS,以及一台光纤陀螺仪。
最终驾驶方式是用挡风玻璃的摄像头来寻找车道线,人类负责踩油门和刹车。但这已经很棒了,为了标记这一事件,团队借鉴了1986年“携手美国” (Hands Across America)慈善活动的名称,将这次旅行称为“无手横穿美国”(NO Hands Across America)。
值得一提的是,当时他们的GPS并不是用来定位,而是测速。托德·约赫姆说,那时GPS还没有开放高精度定位功能,如果使用这种服务价格会十分高昂,同时,就算用GPS进行高精度定位,他们也没有匹配的地图。
不过这反而开辟了自动驾驶的一套范式。当诸多自动驾驶汽车依赖于3D地图来进行环境自适应之时,不需要地图来做决策的方式,意味着可以将一辆车辆扔到一个它完全没有去过的地点,它能够通过学习人类以往的驾驶经验来进行操控,而且表现很出色。
如今以特斯拉为代表的纯视觉方案,只靠摄像头,再加算法,来进行自动驾驶,走的就是这条路线。
基于1990年的庞蒂亚克运动款轿车改装的自动驾驶车NavLab 5(1995年)
照片中的两位是CMU研究员,迪安·波默洛(Dean Pomerleau)和托德·约赫姆(Todd Jochem)
有趣的是,这次具有历史意义的长途旅行当时几乎没有任何资金支持,他们在路上卖10美元一件的衬衫,用于支付食宿费用。“不需要双手驾驶,一边开车一边卖货确实是个好生意。”多年后,在美国脱口秀上,金出武雄靠这个逸事一出场就引得全场叫绝。
把这话放在现在,直到最近几年才有高校回过味来决定开设自动驾驶课程,但40年前,CMU人才一直处于自动驾驶汽车技术的前沿。在这一点上,甚至他们中很少有研究人员认为自动驾驶是一项难以想象的任务。
好比当时金出武雄表达了这样一段话:“在1980年左右,计算机图像处理已经成为一个非常普遍的概念,通过分析航空照片来建立识别和寻找道路的研究正在取得进展。你需要做的仅仅是在你的车里放一个摄像头,然后编写一个遵循你路径的程序。当然,这并不容易,但自动驾驶成为可能是理所当然的。”
这句话直接、简单、省略,即便对计算机视觉领域一知半解,没有深入研究的人也容易理解。这就是金出武雄的一大特点:像外行一样思考,像专家一样实践。
这句话同时也极具鼓舞人心的效果,意思是,研究项目领导的主要工作,就是给出这样的行动方针,懂得省略到什么程度是关键。如果直接从复杂的现实开始思考,是无法鼓励团队向前迈出一步的,提供研究经费的赞助商也暗生动摇。
在CMU机器人研究所的带领下,当时社会正处于一场意义深远的交通革命的边缘。
美国每天的头条新闻大肆宣扬自动驾驶汽车技术的最新成就、DARPA发起关于自动驾驶的城市挑战赛(这一比赛的地位等同于无人驾驶圈的奥林匹克)、科技巨头争相在匹兹堡开设了自动驾驶研究机构、汽车制造商竞相为他们的汽车配备更加智能和自主的系统,包括自适应巡航控制、停车辅助、避免碰撞、车道维护等。
比如2007年的DARPA城市挑战赛,100余组参赛队伍中,11辆自动驾驶车因其卓越性能脱颖而出,冠军就是“Boss”——CMU基于雪佛兰太浩的自动驾驶改装车。
CMU机器人研究所在DARPA挑战赛中的优秀表现,直接促使美国通用汽车公司对其捐赠500万美金建立第二个实验室--自动驾驶技术合作研发实验室。当年带队参加这场比赛的CMU电子计算机工程系教授拉吉·拉库马(Raj Rajkumar),成为这所实验室的联合主任。
但更大的意义是,从此全球开启了自动驾驶产业化之路。
就以拉吉·拉库马来说,此后他创办了Ottomatika公司(主攻自动驾驶软件和系统开发),2015年该公司被世界第三大汽车零部件制造商德尔福收购。到了2020年安波福(从德尔福分拆出来)和现代汽车共同出资40亿美元,成立了现在的Motional,与Lyft、Uber、Via等公司都有合作。
此外迪安·波默洛和学生托德·约赫姆一起创办了AssistWare,专门研究基于机器视觉的系统比如疲劳驾驶警告系统、车辆越位提醒,拿下一级汽车供应商威世通的订单,后来该公司在2006年5月达到顶峰,被康耐视公司收购,再后来就是康耐视将部分业务出售给日本TKHoldings了。
总之,当初这些在金出武雄领导计算机视觉小组工作的人,都凭借那一时期的工作在美国建立声名,从此在工业界独当一面。
说实话,别看现在CMU机器人研究所在自动驾驶方面很了不起,但当时接过DARPA(国防高级研究计划局)这种军方资金的支持,如果成效甚微免不了一顿重击。
尤其是如果说出CMU机器人研究所成立的背景,是由美国前副总统迪克·切尼(Dick Cheney)、海军研究办公室海军上将布奇诺(Bacchico)打了包票,找来了匹兹堡当地企业西屋电气总裁汤姆·默林Tom Murrin谈赞助,光面对这三人的“考核”都是巨大压力。
金出武雄一次说起类似的事。他到达美国后不久,第一次参加DARPA会议,从早到晚连上通宵都在讨论工作问题,当然他的英语不错,常被人褒奖“金出教授头脑很活跃啊”,还曾在研究生时74小时连续不断地思考问题,但是,“当我回到酒店洗澡时,我的手上有头发,我认为当时压力很大。”
在研究界活跃的研究者都有一个共同点,就是拥有智慧体力。智慧体力是金出武雄造的词,指的是能长时间连续思考同一个问题,从各方面来思考同一个问题而怎么都不厌倦的能力。
金出武雄设法做到了没有屈服于压力,仅1991年这一年的论文和报告数量为25篇,这样的研究强度保持了几十年,堪称史上罕见。
唯一一位登上超级碗的大学教授
21世纪之前,金出武雄已经功成名就:CMU最高荣誉Helen Whitaker讲座教授、CV领域最高荣誉之一Marr奖、美国国家航空航天局(NASA)先进技术咨询委员会顾问、美国两院院士、IEEE / ACM fellow,诸如此类......
但他一生最重要的角色,一定是CMU机器人研究所的所长。
1992年,金出武雄从罗杰·瑞迪(Raj Reddy)手中接过了第二任所长一职,从此奠定了CMU机器人研究所的江湖地位。
用他自己的话说:作为机器人研究所的所长,我得到了一个机会--把研究所发展成拥有200多位研究专家、在全世界最具盛名的机器人研究所的机会。”
故此,1995年,机器人研究所凭借自动驾驶名声大噪,仅仅是金出武雄完成的第一阶段任务--帮助该所减轻经费压力、扩大师资力量,并将研究模块衍生到自动驾驶汽车一直到医疗机器人领域--机器人研究所从一个研究中心转变为一个拥有独特研究生和本科课程的成熟学术部门。
此时,距离金出武雄和团队亮相超级碗,还有六年。那是一场极致的视觉盛宴。
“我们涵盖了一切,从理论到软件,再到技术和硬件。我们的多功能性可能是我们真正的强项,我为此感到自豪。”金出武雄称。
(注:超级碗(Super Bowl)是美国职业橄榄球联盟年度冠军赛。多年来都是全美收视率最高的电视节目,并发展为美国一个非官方的全国性节日,甚至超级碗中场秀有“美国春晚”之称)
2001年1月28日,电视台在转播超级碗比赛时,使用了一个搭载“机器人摄像机”的名叫“EyeVision”(幻影)的新式现场直播系统。当时,世界上约有五亿人在电视机前收看了那场比赛。这个系统所用的技术是受在世界上拥有广泛电视网络的CBS公司的委托,由金出武雄和他的团队开发的。
这一直播系统新在何处?
打个比方,现在我们经常在刷到“运动会上摄影师跟拍,举着相机与运动员同频奔跑”的新闻。对于短跑比赛来说这种摄像操作比较简单,但对于橄榄球这种集体配合的、对抗性的射球比赛,要把决胜一瞬间的精彩画面捕捉进电视直播,光靠人力根本不可能完成。
于是,金出武雄提出一个思路:“我认为最好把相机放在你想看的地方,一个相机不行,就多加相机。”
球场内,他和团队在场地上方设置了200多台机器人摄像机来覆盖整个球场。球场外,CBS转播车中设置有带有监视画面的类似移动摄像机的装置,并与场内的机器人摄像机全部连接。
也就是说,当场外的装置做出“移动镜头”或者“变焦”的操作时,计算机同时进行运算,远程控制相应的机器人摄像机做出同样的操作,并且输出拍摄画面。所以,转播车中的摄影师根据拍摄的位置,可以自由地选择运动场内的摄像机,从而得到最理想的拍摄位置。
但效果并不仅仅而已。
“橄榄球比赛的时候要过那条线,过去是一堆人挤在那盯着,有了那个系统之后,就是‘啪’把那个时间停住,所有摄像机都转过来看。例如,在四分卫投球的那个瞬间,和传统的单向拍摄不同,我们的摄像机一起旋转,一起拍摄投球人的方向。对于是否触底得分的微妙情况,我们可以自由地将视点变换360°,一目了然并做出裁决。那个效果就像电影《黑客帝国》中的‘子弹时间’镜头一样。”
所有摄像机把拍摄的视频传送到转播车中,这样对每个摄像机拍摄的画面进行合并剪辑的话,可以360°全方位地再现选手和球的移动状况。
那次“EyeVision”在超级碗中所体现出的效果得到了大家很高的评价。这项研究的投资公司想把这项技术投放市场,结果它的股价在两周内翻了六倍。当年担任这届“超级碗”的中场秀表演嘉宾美国歌手小甜甜布兰妮,在这套直播系统的加持下制造了一场视觉盛宴,成为美国新生代流行文化的代表人物之一。
有趣的是,超级碗转播当天,金出武雄得到了25秒的时间对“EyeVision”系统中应用的新技术进行解释。2001年超级碗一个30秒广告220万美元,以后,金出武雄就戴上了“唯一出现在超级碗中的大学教授”的帽子。
他打趣道,“EyeVision是与世界上任何人开启精彩对话的门票。”在EyeVision之前, 当他在飞机上与旁边的人交谈,会说自己是CMU从事机器人技术研究的教授,仅此而已。 但是那场比赛后,当告诉别人建立了EyeVision时,所有人都说“哦,那个我知道,就是你做的啊。”那时金出武雄就会非常自豪。
在用于虚拟现实的3D相机室中,金出武雄被50台摄像机包围(1998年)
在准备安装EyeVision的工作人员的陪同下(美国佛罗里达州,2001年)
但后来回忆起来,金出武雄说比赛前的事故曾经接二连三地出现。
真正转播的日子是1月28日,前一年的9月就已经开始计划了,可到了12月初也才能确保几台机器人摄像机就位。12月24日圣诞节前夕,在纽约巨人体育场用5台摄像机做练习的时候,开发中的软件让他们团队认识到,要想使用30台摄像机所做的准备工作还差得很远,起码要200台。
接着,机器人电源的的电容器又不知道什么原因爆了,电源又不能用了。都到了转播的前一周1月21日,200台机器人摄像头中因为严寒能动的只有一半,而且还因为电容爆炸的原因数目还在减少。
解救了这场危机的是三个工作人员。
他们是研制完全自动飞行直升飞机项目的成员,而且在图像处理、计算机系统、通信软件、电路等方面可以说是专家中的专家。其中一位来自中国,如今谷歌资深软件工程师(principle level)滑蔚。管理Google Cloud AI的多个团队,也是平安硅谷研究院院长韩玫的先生。当初韩玫博士师从金出武雄(1995--2001),滑蔚从临校匹大毕业后进入金出武雄团队(1999--2001),一边等待韩玫毕业。
不过两人的方向稍有不同,滑蔚参与了金出武雄发起的多个大型项目,如EyeVision、虚拟化现实,重点研究了多摄像头标定、图像配准、面部表情分析、视觉跟踪和模式识别等问题。韩玫选的是导师金出武雄的强项--三维重建,博士论文做的是经典的Structure from Motion (SfM) 方法研究。
韩玫
此后,两人几乎在2001年初同一时间拿到NEC美国实验室的offer。同期华人有龚怡宏、朱胜火、余凯、王进军、王孝宇、林元庆、徐常胜、吕凤军、杨铭、徐伟、贾扬清等等,此后他们中陆续有人回国,余凯2012年加入百度、王进军2013年跟着龚怡宏回了西安交大、王孝宇在2017年10月加入云天励飞、林元庆2017年11月创立Aibee......撑起了中国计算机视觉的半壁江山。(这段故事请看:硅谷NEC Lab往事:将中国企业拽进AI时代的人。后续本文作者吴彤将推出韩玫的个人故事。欢迎添加微信交流:icedaguniang)
沈向洋、韩玫、田英利、肖京
很多人可能有所不知,金出武雄门下的华人学生并不少。
除了之前提到的韩玫,还有陈梅(微软云与AI首席科学家)、张冬梅(微软亚洲研究院副院长)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人)等等。
他们大多数人大都是跟着沈向洋(曾任微软全球执行副总裁,当年是视觉计算组负责人)在微软亚洲研究院(MSRA,当时还叫微软中国研究院)实习,开始对图像感兴趣,又追随着沈向洋的脚步到CMU机器人研究所,慢慢都成为了金出武雄的学生。
这里面有个沈向洋的故事,他其实是罗杰·瑞迪(Raj Reddy)的学生,但在1991年进入CMU后,却并没有走上导师所研究的语音识别这条路。沈向洋认为,语音虽然重要,但人对外界的感知,95%是从视觉来的,所以误打误撞成了金出武雄的“半个学生”。
当然,金出武雄给了沈向洋很多指导。沈向洋发表的博士论文是世界上最早有关由照片转换成虚拟现实的研究,所设计的四分树样条数函数算法,则是世界上最好的运动参数估计算法之一。
韩玫跟沈向洋在CMU重叠过一年,韩95年入学,沈96年毕业,韩玫还做过沈向洋在微软雷德蒙研究院的第一个实习生,两人关系匪浅,“我三次换工作之前都是先问沈向洋的意见。”
韩玫曾问过金出武雄,“当时你有没有一个判断,哪个学生很强?”
“我基本有一些判断,谁适合做教授,谁适合在公司,谁更有锋芒,谁更内敛。当时能看出来沈向洋是跟你们不太一样的中国人,更外向一些,脸皮厚,冲上去跟人聊天。”
金出武雄描述,沈向洋怎么跟人聊呢?他发现别人都喜欢这个football(美式橄榄球),他就会专门去找新闻看,开头能唬人一阵,但说的深一点专业术语他也不懂,他就回去再研究,第二天再找那个人聊。就是脸皮厚到不停地聊,跟人打交道的能力就练出来了,慢慢就成了圈子里的意见领袖。
沈向洋
1997年,柯启发来到CMU,1998年和1999年田英利、肖京也来了。
他们三人的履历有不少相似之处。肖京称柯启发是“嫡系师兄”。两人本硕都在中科大和中科院自动化所的模式识别与人工智能实验室,同是时任所长马颂德的学生。
据肖京所言,柯启发还曾指导过他的本科毕业论文,毕业后两人都曾在日本企业和微软供职,当初肖京一进微软就是柯启发带领的Bing搜索团队。
田英利则早于他们几年到中科院做研究员。当时国内的模式识别和机器人研究刚刚起步,马颂德后来又与田英利定下两年之约--博士学成之后要回来工作两年--正是柯启发和肖京读硕期间。后来田英利来到CMU做博士后,加入了当时刚刚启动不久的“人脸的表情识别”课题。
(后续本文作者吴彤将推出田英利、柯启发、肖京的个人故事。欢迎添加微信交流:icedaguniang)
田英利、柯启发、肖京
前文说过,人脸是金出武雄博士期间的研究课题,二十年后,一帮学生的到来将其进一步发展到“面部表情分析技术”的高度。
不像以前的识别系统,充其量只注意到“快乐”或“愤怒”等广泛类别。金出武雄和团队希望运用心理学和机器学习的方法,做三维的人脸跟踪,以及人类的微小表情变化的识别和分析。一旦成功,这种技术就能广泛应用于安全、司法、医疗和人机交互等领域。
经过一年的摸索,2000年,他们的研究迎来突破。这其中,Jeffrey Cohn教授起到了关键作用。
Jeffrey Cohn
Jeffrey Cohn是隔壁匹兹堡大学的心理学系教授,擅长微表情计算。他与金出武雄的认识却颇为有趣,据田英利所说,“巧就巧在Jeffrey Cohn的儿子和金出武雄的儿子是同学,一次约在一起做作业,Jeffrey Cohn发现金出武雄儿子用的那张草稿纸的背面,就是他爸爸做的人脸识别的演算,便直接约了金出武雄见面。”
因此,自九十年代以来他就与金出武雄保持着密切的跨学科合作,神奇地推动了情感计算领域的发展。
后来,这一团队除了在当时建立了第一套全自动的人的微表情识别系统,田英利还为此建立了微表情公开数据库,肖京将这种技术从二维扩展到了三维,使得人脸表情识别技术的应用范围更加广泛。
不久后,MIT的一位女教授关注到了田英利的工作,还邀请过她到MIT一起合作。虽然没有成行,但值得一提的是,这位女教授就是冠有“情感计算”之母的Rosalind Picard(她在1997年提出了“情感计算”的概念)。
这充分说明了她的研究成果得到了国际一流学术机构的认可和关注,并推动了情感计算领域在2000年后迎来一波发展浪潮。
当时除了金出武雄团队之外,加州大学的The Salk Institute for Biological Studies(索尔克生物研究所)Terry Sejnowski教授的团队势头甚猛,他们主要研究人机交互,尤其侧重表情识别。
Rosalind Picard
Terry Sejnowski(神经网络的先驱,早在1986年,与Geoffrey Hinton共同发明了玻尔兹曼机)
因此,美国中央情报局组织了一个比赛,邀请了卡内基梅隆大学和加州大学两个团队。这个比赛的主要目的是测试他们的系统在测谎方面的效果,还请来了Pietro Perona做第三方评判。
尽管只有两个团队,但是比赛参与者来自多个国家和地区:田英利来自中国、金出武雄来自日本、Jeffrey Cohn来自美国、Pietro Perona来自波兰,对方团队也来自多个国家,因此大家统称为“联合国战队”。
田英利分享了一个细节,那天比赛的返程路上,大家都坐电梯下楼,金出武雄大声说笑,“英利,我最近老觉得有点累,怎么样才能不累呢?”
为了保证工作连续性,通常是金出武雄的夫人中午来送饭,做出很漂亮的寿司,但很多时候,到了下午五六点他才想起吃饭,既不是午饭也不是晚饭,一边吃一边干活。
“我不知道,要是能找到让你这么工作还不累的妙方,也告诉我一下。”田英利回答。
那之后,当金出武雄在讲座上发言时,经常有人问他,“你所做的一切都成功了”,或者,“你曾经失败过吗?”
金出武雄笑答,“我想如果我告诉你我失败的时候,每个人都会更快乐,但我相当刻薄,所以我回答说,我的信念是一直做到成功,所以我的字典说失败在逻辑上是不可能的。 ”
金出武雄在办公室,摄于2000年前后
2001年9月11日,一场有目的的自杀式撞机事件在美国发生,其中第四架被劫持的飞机坠落在匹兹堡。当天,机器人研究所的电话响了,是美国联邦调查局(FBI)打来的。
“我们想得到坠落现场详细情况的地图。”
他们是想要金出武雄团队使用勘查地形的自动操纵迷你直升飞机,到坠落现场的上空将散落各处的飞机残骸的状态用摄像机拍摄下来。几天后,金出武雄他们将迷你直升飞机升到坠落现场上空,将激光传感器拍摄的三维图像经过计算机处理,制成可以对现场情况一目了然的三维地图,提交给了FBI。
“这真是非常典型的美国政府行为。当国家遇到紧急情况时,大学提供全面的协助。他们非常现实,只要有帮助的无论什么都要用上。”金出武雄评价。
他和一众的学生表示,911事件是他们研究生涯的一个重要节点:要更加关注当下的社会生活。
2001年,田英利加入IBM研究中心计算机视觉研究组,迅速将研究重心转向了视觉监控,研究如何自动检测不安全和不规则的行为并发出警报,与语音语义背景的高雨青也多有接触。如今在纽约市立大学生则和医疗走得紧密,最近正在建立一个手语视觉识别的系统,帮助那些想要学习手语的人自动判断自己的手语准确度,并在出错时给予提醒。
2004年,韩玫、滑蔚、徐伟、刘昕四人联手打造的核心技术为基础的初创公司Vidient,该公司的智能视频监控系统最先部署在美国旧金山国际机场,每天预警上百件对潜在危机事件。自从2018年被师弟肖京招入平安硅谷研究院后,主打攻坚业务驱动的先进AI技术研发。
至于金出武雄,他则更为决断。
2001年,他辞去了机器人研究所所长的职务。那一年他56岁。
同年,他在日本东京成立了“数字人类研究中心”,担任了首任主任。该中心观察,测量和模拟人类功能,以努力理解许多系统中这个最重要,但最不被理解的组成部分。2006年,他又在CMU成立“生活质量技术工程研究中心”,同样是担任首任主任。该中心由美国国家科学基金会(NSF)资助,旨在开发智能系统以帮助老年人和残疾人。
众所周知NSF经费非常难拿,习惯于资助小型项目,但金出武雄从那拿了上千万美元,拉了56个学校一起做,是美国历史经费最高,单位最多的项目之一。
在美国,很多重要大学的所长和主任等职务并不是轮流担任的闲职。他们既是负责组织运转的经营者,也是老板、领导者。他们既需要制定战略又负责指挥,所以这样的人一定是精力充沛的。
金出武雄做了一个形容:就好比美国西部剧中的警长都比助手强很多,拔枪他最快,绝不是走到现场大喊一声“上啊”,身手却已经不如部下了,还要站在前面装腔作势,既帮不上忙,部下们也会看轻他。
“要想不被别人当成摆设的木偶,无论到了什么地位都要履行好自己的职责。”
钟华、李岩、康洪文、苏航
有人问:“金出武雄的中文名字有什么含义吗?”
金出武雄回答说:“每个汉字倒是有自己的意思的,大概说来,‘金’是money(钱)或是gold(黄金)的意思,‘出’是give out(提供)的意思,‘武’是soldiery(士兵)的意思,‘雄’是brave(勇敢),man(男人)的意思。 ”
“啊,连起来就是招财的勇敢武士!那拿研究资金一定很容易了。”
确实如此,在拿经费这件事上,金出武雄还是颇有心得的,几乎所有人读完他的研究计划书都要说,“给这项研究经费提供支持,而且经费给他。”
遥想在1979年10月CMU机器人研究所成立时,要达到研究的临界质量,计划书上写的是需要“5~10名教师”和“每年200万~500万美元的资金”。但是在金出武雄10年任期中,研究员数量到了200人,研究所每年的研究费预算大约是6500万美元。
最主要是美国国防部(DOD)的资助,此外还有美国国防高级研究计划局(DARPA),美国太空总署(NASA),美国国立卫生研究院(NIH),美国国家科学基金会(NSF)等等。
因此,金出武雄给学生定了一条不成文规定:只允许做一个实习生。
等钟华、李岩、康洪文、苏航来到CMU,都是在911风波之后。DARPA痛定思痛,拿着一堆钱到各个学校找人去做各种各样的研究。尤其是钟华,“我刚去没几天就赶上了,本来想学习图形学,招我的导师Paul Heckbert几个月前去了英伟达做首席科学家,我就成了‘没人要’的状态。”
赶巧,史建波刚从UC Berkeley毕业后来到CMU任教,非常年轻,从美国国防部拿到了一个叫做“Human ID”的项目。这个项目特别神奇,是从人的走路姿势来判断身份,意思是这个人可能改头换面了,但是他走路姿势这些特征还存在,可用来锁定出恐怖分子。
与此同时,等到Human ID项目快做完了,眼下又要去碰碰新的项目。
实际上,在钟华入学之前,沈向洋就早已为他写好推荐信。虽然钟华是沈向洋在微软的第二个实习生,却是最早跟着他发展微软亚研的人,前十五号员工。当时沈向洋在微软亚研专门创立了一个“assistant researcher”的title给本科生,钟华是第一个。那么自然,在推荐信中沈向洋对他不吝赞赏。
金出武雄找到钟华,给了两个项目选择,“一个是无人机在楼里飞,另一个是在心脏里导航。”
钟华开玩笑吐槽,但这两个项目的难度都非常大。“2002年那会无人机还非常不普及,给你一无人机不是在外面空旷地飞,要在楼里飞?穿过楼道进屋?我一听卧槽这太难了,这不是一个人干的事,就选了另一个。”
那时金出武雄和匹兹堡大学附属医院(UPMC)的医生合作非常多,一个医生(名字是David Schwartzman)找过来,希望做不开胸的心脏微创手术,还得往里面塞支架,迫切需要一种心脏导航的系统。
说难也难,说易也易,导航定位早在八十年代就被金出武雄应用在户外机器人上,做了活火山口勘测、极地研究、深海作业。但心脏导航需要了解大量的生物学知识,包括心脏的解剖结构,生理、病理改变,超声影像等,以及心脏超声与别的超声的不同之处在于它还得了解血液动力学的知识。
但他们几个人对此的热情不减反增。钟华说到,“我记得我毕业论文答辩那几天,金出武雄的母亲去世,他回日本去处理丧事。时差原因,他白天处理日本的事,晚上处理美国的事,我答辩那天问要不要推迟,他说不要推迟,我线上参加。那时候他已经72小时没睡了,但精神看上去还是很好。”
最终那套心脏超声波导航系统在2007年推出,花费了五年时间,包含手术导管的实时3D位置和心脏图像。当时市面上最好的系统精度还在厘米级,他们已经提升到毫米级。后来那位医生拉着钟华成立了一个公司,两年后将IP卖给一家医疗器械公司,小赚了一笔。
后来的经历中,钟华曾加入西门子、谷歌、曾再次创业,也曾因几位创始人意见不一致无奈离职,郁闷地“一个猛子扎进太平洋里”。不过他这个人最厉害的地方就是不发怨言:“卧槽!人进海了,手机还在兜里,正好谁都别找我了。”
一周后钟华重振旗鼓,老同学李岩的电话打来,“要不要来神州优车?”
那时候李岩已经从CMU毕业,先去了微软、Facebook,2015年底被同学刘亚霄(现亚马逊AWS中国区CTO)找到,说神州优车打算在硅谷成立实验室,缺个带头人,便推荐了李岩。
李岩提到,汽车是一个新的领域,也是一个能够充分体现计算机视觉和人工智能的最佳平台。无论是从手机、增强现实还是虚拟现实,它们可能都不是真正集大成的产品。钟华也没犹豫。他和李岩知根知底,两人都是清华计算机系,在微软亚研时都是沈向洋的实习生,后面都拿到沈向洋的推荐信后踏进CMU,前后脚都到了金出武雄门下。两人一拍即合。
2016年,李岩、钟华还有几个跟过来的老搭档,花了三四个月,把整个神州之前所有的那套轿车系统和派遣系统全改了,放到了云端(AWS)。这是当时的一个痛点,经常挂,所有人租不到车,老陆(陆正耀)经常骂,“系统一挂一分钟多少钱就没了。”
那会百度也在硅谷也在做自动驾驶,两拨人经常这么来往,后来不知道谁起的头,“要不咱们别这么吹了,一起干算了。”后来就创立了景驰科技。当然自动驾驶圈的争议一直都不少,说的最多的是谁跳槽谁空降谁挖人,背后牵扯一缆子事情。直到2017年,事情终于告一段落,公司改名文远知行,李岩担任CTO,钟华担任工程资深副总裁,韩旭担任CEO、吕庆担任CFO。故事回归到最应该讨论的技术轨道上。
李岩第一时间与金出武雄联系,并邀请他担任顾问。
2019年,距离金出武雄发布了世界上第一辆自动驾驶车辆,已经是第34个年头。他来到了文远知行全球总部广州,关心技术,也关心商业化落地,还为融资做了很多帮助。
(后续本文作者吴彤将推出钟华、李岩的个人故事,重点谈及他们在西门子研究院往事,涉及当今医学影像圈的大牛吕乐、郑冶枫等人。欢迎添加微信交流:icedaguniang)
顾烈、钟华、金出武雄、李岩、韩旭(2019年)
值得一提,在这张合照的左边,也是金出武雄的一个学生,顾烈。以前是西安交大少年班的,早年和钟华和李岩都在微软亚洲研究院共事,做的是图像和视频检索,人脸检测和对齐,2002年几人约莫着同一时间拜入金出武雄门下。毕业后顾烈去了华尔街做量化基金,那地正是全世界最聪明的量化投资者的聚集地--WorldQuant(世坤投资)。
哈工大金融智能量化投资研究中心的罗勇曾在知乎有一段细节描述--“世坤就是全球量化界的黄埔军校,加上它背后的千禧基金(Millennium),培养出了一批顶级的Quant人才,其中就包括九坤投资的创始人王琛、合伙人姚聪,诚奇资产创始人何文奇,均投资马志宇,明汯投资创始人裘慧明等。2017年时世坤的北京分公司就已经达到了月薪10万。”
不过关于顾烈的江湖传闻很少,颇为神秘,但多年好友钟华提到他时脱口而出,“他是个神童。2009年毕业后在世坤做到现在,是他职业栏中仅有的第二段工作。”(本文只是冰山一角,更多内幕添加作者微信知晓,欢迎投资界同道交流)
那次到访中国,金出武雄还特意去了一趟杭州,看望了自己的另一个学生,康洪文。
康洪文、金出武雄
康洪文算得上是金出武雄与Martial Hebert联合培养的“关门弟子”,等到康洪文博士毕业后Martial晋升了CMU的院长。
读博期间的康洪文对人工智能的应用落地萌生了念头,2012年毕业后,他成立“慧川智能”(HUNCH.AI),第一笔投资来自导师金出武雄,紧接着又获得沈向洋、童士豪、张磊等众多大佬的投资。
不过相比“慧川智能”,大家可能更熟悉另一个名字——“智影”。
2017年,康洪文回国进行业务拓展,并迅速锁定了视频及短视频制作赛道。当时中国市场正处于从图文到视频的转变过程,内容生产者逐步开始转向短视频平台,在抖音、快手、西瓜等地方试水。
敏锐捕捉到当时市场的增量需求,康洪文提出了一种算法,“文字生成视频——Text to Video”,将一维文字数据自动生成三维视频数据。用户只需要输入脚本文字,直接通过云端生成相应的视频内容,自动配音,并且能进行在线进行编辑和修改,同时预览、渲染、视频文件导出和下载等全部在平台云端完成。
在过去几年中,智影服务包括了湖南卫视、芒果TV、浙江卫视等省级上星频道,这些第一批吃螃蟹的媒体,通过智影成为最早与AIGC商业化应用接触的频道。他们借助智影的工具也完成了众多在当时看来不可能的任务,包括央视2019国庆七十周年大阅兵短视频自动化生产、以及2020疫情期间湖南卫视歌手云录制。
2021年初,康洪文所创立的这家人工智能公司最终被腾讯全资收购,他本人出任“腾讯智影”的高级总监,负责推进集团的智能化内容创作工作。
康洪文说,“早在2018年就与腾讯开始接触,通过两年的双方沟通和考察最终在2021年完成全现金收购。腾讯给智影的定位是‘AI视频中台’,支持内部各个业务线,如腾讯视频、腾讯会议。等到2022年底AIGC概念铺天盖地火起来时,腾讯突然意识到,原来买的是一个AIGC公司,累积突破千万级营收。”
这次收购对双方是双赢的。如果站在2023年看当时的收购,可以说腾讯在AIGC新纪元开启前,就捡了个大宝贝。两年时间,AIGC技术和概念的发展带来价值和估值的增长可能在十倍以上,而康洪文通过智影的收购帮助所有历史投资人成功高收益退出。
与此同时,在大模型技术的催化下,康洪文关于人工智能商业化落地的梦想再次被点燃。2023年10月,康洪文作别腾讯,开始了自己的新征程。新项目是大语言模型与多模态AIGC结合的新方向,目前已经获得多位投资人的投资,其中不乏慧川智能的历史投资人。
如今再说起跟随金出武雄的日子,康洪文吐露:我对CMU的教育体系,尤其是金出武雄对自己的培养,有一种发自内心的认可和感谢。这不仅仅是说当初导师帮我张罗融资、引荐人脉,他也让我明白,经历过PhD训练的人是最好的创业者。
“博士论文开题就像是你的商业计划书:为什么这个问题存在、为什么这个问题值得解决、为什么是我能解决、我用什么方式去解决、解决这个问题之后能够给用户和社会创造什么样的价值。开题后,进入论文的正式研究,学生需要开发新技术,和创业时候的产品研发、技术创新和迭代一样。另外学生需要学会团队合作,这就是创业时与合作伙伴、投资方的协作。最后如果幸运通过论文答辩,就等同于市场愿意买单了。”
最近,康洪文作为主要捐赠人牵头成立了以“金出武雄”名字命名的讲席教授,以资助未来在CMU任教的青年教授。兜兜转转,老师成就了当初的学生,学生又成就了如今的老师。
在康洪文之后,金出武雄的办公室依旧走进过非常多的华人学者,有目前纽约州立大学石溪分校的副教授尹兆正、清华计算机系的副研究员苏航、微软云与AI首席科学家陈梅、谷歌从事CV研究的潘吉彦,他们几乎都趁那段时间打开了学术声誉。
苏航感慨万千,能够得到金出武雄的指导是一件非常“幸运”的事情。因为他不仅能够一针见血地指出问题所在,还能够提供宏观和微观两个方面的指导。
“我们写论文之前,他要求我们把要解决的问题说一下,跟他做一次presentation,写几页PPT,包括这个工作的重点、难点、实验设计,但他真正厉害的是,他不仅关注研究的大方向,他在指导时细致入微,我有一次写错了一个数学符号就被他发现了。”
仅用半年,苏航的一篇论文作为特邀稿件发在MICCAI上。这是一个跨医学影像计算(MIC)和计算机辅助介入(CAI) 两个领域的综合性学术会议,属于顶级会议,苏航也成为中国大陆的第二位获奖者。
(限于篇幅,康洪文、苏航、陈梅的故事将在后续系列中详述。欢迎添加作者微信抢鲜交流:icedaguniang)
故事未完待续
当今天全球各地热烈地讨论大模型、无人驾驶、AIGC、数字人、虚拟现实......憧憬着未来各种研究合作的时候,金出武雄在做什么?
2023年的11月初,卡内基梅隆大学举行了一次盛大的计算机视觉研讨会,回顾了最近50周年来的CV发展变革。到场的不仅有金出武雄和他的诸多学生们、他大半个人生中的重要合作者,过去他从世界各地挖来的精英学者、还有如今在计算机视觉前沿的各类项目发起人。
会议开始,所有人都安静下来,金出武雄快步走上台。台下的人身体微微前倾,大家都知道,待会金出武雄第一句话一定不会铺垫,而是直切正题。
他有一个很重要的策略,就是“先出手中最好的牌”,无论过去在大型国际会议上的演讲,还是机器人研究所开的研讨发言,他都会从听众最关心的结论开始。
“第一张PPT竟然是金出武雄三十年前的一页笔记。”
那是金出武雄从当年笔记本上撕下来一页,一份他对于自动驾驶的设计,密密麻麻的一张纸,Martial当年还开玩笑,“我打赌30年之后自动驾驶就做成了。”
不过30年后很快来了,Martia在台下又补了一句,“现在看至少还得30年才行。”金出武雄笑着把话又抛回去,“都是因为你们这帮学生不听话,没有百分百执行老板的指示,所以自动驾驶还要搞。”
这个场景很像CMU计算机专业研究生学院的一个传统--“黑色星期五”,也就是教授们决定是否开除学生的评鉴日。
所有的教师集中到一个教室,会议的召开常常是大家侃侃而谈,特别是涉及到否定结论的时候。因为这种否定和学生一生的命运相关,所以往往会陈述一个小时,甚至有时候会更久。
但对于那些已经毕业的老学生们就不一样了,趁着重回学校的机会,他们聚在一起互相谈论当年那封名为“黑色星期五”的邮件究竟是怎么写的。一般为“做了非常了不起的研究”“写了不少论文”“总是关心研究以外的事情,而研究没有丝毫进展”“最近,结婚了”,等等。
2023年 CMU RI 开展了CV研讨会,从左到右 田英利、钟华、李岩、沈向洋、金出武雄、康洪文、韩玫
现在学生们反过来评价老师,给到的回答非常多,譬如:
“金出武雄的成就清单很长、种类繁多且独一无二。”“他是计算机视觉领域的第一批研究人员。他的研究方法不受限制,与如今业界主流的模仿人类视觉特征的方法不同。”“你没法给他贴个标签,究竟是深度学习的人、还是做工程的人。为了解决问题,他不限定用任何算法,不限定用任何学科,”“他是出了名的‘争强好胜’,熬一个通宵后第二天还会和学生们在球场打车轮战。”
不过一个最亮眼的评价是,相比于他做了什么,他没做什么才更值得关注。
“从金出武雄自身来讲,他没有去做商人。我相信他也懂这个道理,因为商业上的成功不一定是技术最牛。但他培养的学生都愿意去业界闯一闯,有需要他的地方,他还是会来。”
本文作者吴彤长期关注人工智能、医疗领域,热衷于系统完整地记录故事。欢迎同道微信交流,icedagunian
雷峰网 (公众号:雷峰网) 雷峰网
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。