语音 AI 之路:约翰霍普金斯大学 CLSP 群英谱
这是一个,一群人用语言和语音技术探索前路、希望改变世界的故事。
一通特殊的电话,开启徐鹏的 CLSP 之旅
1999年,徐鹏接到了一个从未设想过的电话。
24年后,已经成为了蚂蚁集团副总裁、执掌蚂蚁基础大模型,徐鹏仍然无法忘记那一通电话——而也是这一通电话,让他的人生发生了重大的改变。
彼时的徐鹏,刚刚结束在中科院自动化所三年的研究生项目,告别导师黄泰翼,来到了大洋彼岸的布朗大学进修,研究语音识别和麦克风阵列。
而电话另一头的人一说话,就让徐鹏吃了一惊,给他打来电话的,是约翰霍普金斯大学(以下简称“JHU”)语言和语音处理中心(CLSP)的负责人 Frederick Jelinek。
布朗大学虽是藤校,但在语音识别领域里的名声,却难望 JHU CLSP 的项背。而真正令徐鹏印象深刻的,是世界级语音大牛——Jelinek 的亲自致电。
一年前,徐鹏就曾经申请过 Jelinek 的博士,但最终没能如愿,然而去往JHU、在 Jelinek 手下工作的想法,一直没在他心中熄灭。于是在布朗大学就读一年后,徐鹏再次申请了CLSP 电子工程系的项目,这才终于等来了 Jelinek 的电话。
行家一出手,便知有没有。两人只是短暂交流,Jelinek 便给了徐鹏 Offer,只是希望徐鹏能够早点来到学校,进入 CLSP 的状态。
于是,在布朗大学的第一年读完,刚放暑假,徐鹏就带着行李从罗得岛离开,去往位于美国东部、马里兰州巴尔的摩里的 JHU。
巴尔的摩是世界著名的港口之一,这里四季分明,气候温和潮湿,比起纽约、洛杉矶等发达且“时髦”的城市,稍显朴素。
JHU 的 Gilman Hall
有些人会将 JHU 的某些特质和中科大进行对比——地处二线城市,学风淳朴。
“跟老师交流时,他们关注的重心不是你能发多少篇文章,而是这个工作的原创性、能给领域带来什么新的方向和思考,”毕业于 JHU 生物医学工程专业的医疗 AI 创业者马骏回忆道,“学生们也是,大家对学术是出于真心的喜欢,平时聊天、讨论的内容都是学术方向和学术大牛,跟今天大家讨论明星八卦一样,是他们的乐趣所在。”
事实上,在哈佛、耶鲁等教会学校大行其道的当时,JHU 第一任校长 Daniel Coite Gilman(卡内基-梅隆大学的前身卡内基学院创始人),特意远渡重洋招徕了六名知名教授,并引入德国的大学教育体系,成立了北美第一所研究型大学 JHU,分专业录取本科生、以讨论班形式授课,意在将学术体系更细分化、专业化。
然而,能让徐鹏放弃藤校的学位,最重要的,还是在 JHU CLSP 的学术领军人物、美国工程院院士 Jelinek。
Frederick Jelinek
Jelinek 来自捷克,麻省理工毕业后,他曾在康奈尔教书十载,后加入 IBM 研究院,于 1972 年带领 IBM 华生实验室,提出了基于统计的语音识别框架,以提升语音识别的准确率和识别范围。
看山不是山,Jelinek 将语音的问题看作一个通信问题,使用声学和语言两个概率模型,精准地概括了语音识别,将 IBM 的语音识别率从 70% 提升至 90%,单词识别的规模也从数百上升到了两万——此后,语音识别技术有了初步应用落地的可能性。
而没过几年,Jelinek 在 IBM 又有了一项新的成果:基于语料库 n-gram 语言模型的大词表连续语音识别方法。简单来说,把语音识别的单位从“单词”拓展到了“整句”,不仅让语音识别的性能大大提升,也深远的影响了未来20年左右的语音识别和机器翻译技术发展进程。
对 IBM 当时的语音工作,黄学东对雷峰网如此评价:“做语音最早的就是 IBM,如果从历史的维度讲述,IBM 内部将做语音的方法应用至机器翻译、改写了历史,也影响了后面的 Transformer。IBM 对语音领域的研究做出了巨大的贡献。”
而彼时,前沿的语音研究,中心仍然在高校。Jelinek 从 IBM 来到 JHU,并且主掌 CLSP 的研究和人才招募。
研究和行政之外,Jelinek 也会亲自带博士,而徐鹏则是他的第四号博士。
Jelinek 素来以严格治学闻名,他的想法明确、学术视角毒辣,即使已是学术领军,仍然与学生交流紧密。讲课并非他最突出的能力,来到 CLSP,Jelinek 就已经是花甲之年,也不会亲自写代码。于是,徐鹏必须得把每一个实验的肌理分析得足够清楚细致、追根问底,还得能够把成果汇报给 Jelinek 。
对徐鹏,Jelinek 常常一次性给他20个问题,让他写出代码实现验证。徐鹏和其他学生办公的地方,是一个狭长的长条形房间,而 Jelinek 的办公室就在门外,常常给出问题没多久,Jelinek 就会亲自来到徐鹏桌前询问进度,或干脆把徐鹏叫进办公室讨论。
Jelinek 的严格,由此可见一斑。
另外,在批改论文时,Jelinek 甚至会标出文中的英文语法错误。在中国学生越来越多的时候,Jelinek 还还专门让他秘书在办公室挂了一个“只能说英文”的牌子,甚至还出钱雇老师给徐鹏他们上英文课。
在 Jelinek 初到美国时,他的梦想本是研修法律,只愁捷克口音太重,英文发音稍逊一筹,便不得已选择了麻省理工的电子工程系——他之所以如此,也是怕学生再吃语言的亏,重蹈他的“覆辙”。
每年暑期,CLSP 也会联合各大高校开展 workshop。不同院校的学生、老师、企业的研究院都来到 JHU ,申报课题后,一起完成两三个月的研究工作。
90年代末,正是统计方法开始被语音识别学界所重视起来的时候。在这个方向,当时涌现出了一批重要学者。从Michael Collins、斯坦福的Christopher Manning 和他的学生等等,Jelinek 也经常邀请他们来到CLSP访问交流,一时 CLSP 称得上“谈笑有鸿儒,往来无白丁”。
而 Daniel Povey 主创的语音识别开源工具 Kaldi,也正是诞生于 CLSP的 workshop。不过这是后话,先按下不表。
在学术之外,Jelinek 的生活作风相当简朴,没有什么做派。他开一辆老丰田开了20年,启动时的声音像飞机发动机一样,别人问起,他只说:“我要像用我的人一样,用我的车。”老车报废之后,Jelinek 只是花了几千美金,买了一辆很旧的二手车。
2001年,徐鹏跟 Jelinek 一起,去意大利参加一场重要的活动。从米兰落地,Jelinek 租了一辆车,载着徐鹏在米兰的山路上近乎狂飙,抓住一切机会超车,绝不落人后,把副驾驶上的徐鹏惊出一身冷汗。
也正是在那场活动上,当时台上不少语音领域的大牛,都在讨论语音识别该怎么做、往哪个方向走,但各说各话,争论不下。
在台下,Jelinek 再看不下去了,于是站起来,对着台上说:“在这里争论这么久,仿佛这个事情是我们能决定的,我们就是各个政府的奴隶,他们给我们钱、让我们干什么就得干什么,不要讲得这么冠冕堂皇,实际上我们也影响不了研究方向。”
是时,台下数百观者,台上一众嘉宾,无不瞠目结舌,Jelinek 也不愿退让,最后还是有人圆场,尴尬的气氛才缓解了几分。
“我觉得,他(Jelinek)看事情时,更希望看到本质——能做什么就做什么,不能做的事情干脆放弃,没必要粉饰太平,说话直接,常常直戳痛点。”谈到恩师 Jelinek 时,徐鹏如此评价道。
Jelinek 最出名,也最令人咋舌的一句名言——“Every time I fire a linguist, the performance of the speech recognizer goes up.”(我每开掉一个语言学家,我语音识别的效果就能上升一点)也曾在业界掀起轩然大波。
即使外界一片争议和误解之下,Jelinek 也只和身边亲近的人解释过。其实,Jelinek 很希望能够将语法的解析,和语音识别、语音模型结合起来。
当时徐鹏和一个师兄一起,在这个领域做过尝试,而最后结果证明是,语法解析对模型效果确实能够起到一定作用,只是跟 Jelinek 的想象相差甚远。
而 Jelinek 反对的,是用规则的方式做语音,他认为语法应该跟统计结合起来,加上他本就是做信息论出身,相较之下,更欣赏用概率论统计的方法去做研究。
而实际上,规则学习的方式,也在世纪之交时遇到了瓶颈——只用语法规则无法完全解释语言,而语言学家标注出的规则又无法穷尽使用者的语言使用;而就在这时,Jelinek 所一贯主张的统计学习,则一举登上了语音领域机器学习的主流舞台。
早期在 Jelinek 治下,徐鹏的研究谈不上有什么自由度,直到做出成果让导师信服后,才得以逐渐开展自己感兴趣的的研究。
对 Random Forest(随机森林)算法效果提升的研究,是徐鹏心中,自己在 CLSP 时比较有新意的一个工作。这种机器学习算法,基于集成学习理论,根据随机选择的特征训练一棵一棵的“决策树”,再根据多数投票的方式,把每棵树的预测结果合并为最终的预测结果。
欣赏徐鹏的研究,Jelinek 特意将随机森林算法的创始人之一——Leo Breiman 请到了实验室,让徐鹏把自己的工作给他汇报。比起 Jelinek ,利奥·布雷曼还要大上四岁,已经几近古稀,特意从西海岸赶来巴尔的摩,称赞了徐鹏的工作。
而在 JHU 进修数年之后,徐鹏以亲身领略到了最前沿的语音技术。而和不少心怀天下的 AI 探索者一样,他不想把一身本领留在象牙塔——他的梦想是长风破浪,直济沧海,用语音 AI 改变世界。
PhD毕业后,徐鹏的下一站,选择了一家年轻的公司——创始于硅谷山景城的谷歌。
谷歌:CLSPer 从学术界走向工业界
“我认为,谷歌对 AI 的贡献,今天很多人都没有看到——其中最核心的一件事,就是在 2004、05 年左右,用分布式、云计算的方式来做语音识别和机器翻译,把技术变成了一项实打实的产品。”李志飞——徐鹏在 CLSP 的师弟,后来出门问问的创始人——如是说道。
21 世纪初,语音 AI 正有从高校向工业界转移的趋势。谷歌的不断壮大,也吸引着越来越多华人 AI 新星的加入。而其中,同样来自 JHU CLSP 的吴军,就是谷歌最早一批的贡献者。
吴军比徐鹏大三届,算得上是徐鹏的师兄,由于都是华人,两人时常在实验室一起吃饭,吴军时不时会请徐鹏来家里吃饭,徐鹏也帮吴军搬过家。
徐鹏 2005 年毕业,就直接加入了谷歌,成为了当时谷歌为数不多的华人员工。当年谷歌来到巴尔的摩,在 JHU 校招,吴军还亲自作为宣讲的一员随队前往。
徐鹏
然而,招收徐鹏进入谷歌的,并不是吴军。
事实上,一年前的谷歌校招,吴军就鼓动徐鹏来试试,彼时徐鹏正读到博士最后一年,到了面试才发现自己准备得并不完备,发挥不尽人意,面试阶段被刷了下去。
一个寒暑过去,再有两天徐鹏就要毕业。或许是命运的安排,在一次会议上,徐鹏遇上了执掌谷歌机器翻译的 Franz Och。
两人简单交流,Och 十分赏识面前的这位年轻人,便问徐鹏,为什么没有申请谷歌的工作。而徐鹏仍在一年前面试失败的阴影之下,感觉希望渺茫——谷歌当时四五千人的规模,研究岗只有寥寥数十人。而 Och 却想要给予徐鹏一个机会,当时谷歌的机器翻译组也急需科研人才,便为徐鹏安排了一次线上面试。
这次,徐鹏没有浪费机会,过五关斩六将,一周后就拿到了 Och 发来的 Offer。
5 月进入谷歌,徐鹏便开始享受着相当自由的工作氛围:研究主要依靠研究员的自驱;地点也十分自由,只需要提报一个简单的差旅手续,就可以想去哪里去哪里;甚至有一次,徐鹏因为专注工作,错过了 Peter Norvig(徐鹏在谷歌的第一个 director)的年末绩效汇报,迟到了足足 20 分钟,尽管是两人的第一次会面,诺维格也只是轻飘飘一句:“做事去吧”。
在谷歌期间,徐鹏所在的机器翻译组,是谷歌最早一批将统计方法机器学习做进产品中的人。最早期,机器翻译组只有十人不到,研究和产品化都有专人负责。徐鹏则被归入了产品化团队中,从前端到后端、工程到产品均有涉猎。
几年时间过去,谷歌的机器翻译组也越发壮大,徐鹏也作为面试官,面试过大量的人才,其中也包括 Samy Bengio(Yoshua Bengio 的弟弟)
2013年,深度学习的风潮兴起,AI 的风向再次变天。
硅谷的谷歌内部,也清晰地感受到了这种变化,机器翻译组的 Och 也被深度学习技术的发展所震撼,想要从底层研究到落地实现大包大揽;而徐鹏和 Och 的理解并不一致,他认为,和谷歌大脑协作能更加集中公司内部的资源,各取所长。
彼时,谷歌大脑的办公室就在机器翻译组的斜对面,门牌也只是贴在门上,一张写着“谷歌大脑”的打印纸。而在那里,今天 OpenAI 的首席科学家、创始人之一——Ilya 和组员正在完成的却是改变世界的研究:
在徐鹏的帮助下,谷歌大脑完成了 LSTM 在机器翻译领域上技术研究,以及paper sequence to sequence translation背后数据的预处理等工作——Ilya 做的是模型和方法,徐鹏则用自己的模型和统计方法与 Ilya 方案对比,统计方法给基于LSTM的深度学习方法提供了很好的验证,让深度学习模型更容易看到当时的不足,并最终得以改进,取得了比统计模型更好的效果。
而和谷歌大脑的合作,让徐鹏意识到继续进行统计方法研究的局限,在 Och 主导的翻译团队进行深度学习探索的自由度也受到了一定的限制。虽然徐鹏已经是组里的manager,主管工程和部分研究,但是他还是提出了转组,想去机器翻译之外的地方尝试。
再三思索,徐鹏没有去 Ilya 的谷歌大脑——因为 Ilya 对深度学习执念很深,意图把研究方向全部揽到深度学习中来;而徐鹏更愿意做落地的工作,关注实际的效果,两人最终也是道不同,不相为谋。
于是,徐鹏去了谷歌广告,是第一个把深度学习做到线上系统的人,给公司带来了几个亿的营收。而在徐鹏离开机器翻译组后不久,Och 就选择了离开谷歌,去往了 Human Longevity 开始新的探索。
时间拉回2010年,徐鹏面试了另一个来自 CLSP 的年轻人,他比徐鹏小5届,与徐鹏同样分属电子工程系,也正是书生意气的年纪。当时,正是谷歌机器翻译组决定在语音版图上开始扩张的时机,徐鹏面试了不少在语音领域有所成就的技术大牛,而面前这位年轻人就是其中之一。
年轻人名叫李志飞,2004 年入学,和吴军一样,拜在Sanjeev Khudanpur 门下。
Sanjeev,常常被中国学生戏称为“三姐夫”,是 Jelinek 在早期招募进入 CLSP 的学术精英,研究方向和 Jelinek 一脉相承,Sanjeev 也是一位“神人”。传说每次有人来参加研讨会,Sanjeev 总能一眼看出对方数学公式中的错漏。
Sanjeev Khudanpur
原先也曾在 CLSP 读书的云启资本合伙人陈昱回忆,Sanjeev 对学生要求极严——不仅编程技术需要过关,数学水平也要足够高。开课时,教室里还满满当当坐了几十号人,而随着课业进行,学生便变得越来越少。
在电子工程系,李志飞的奖学金是 Sanjeev 帮忙出的;而带他做事情的导师,是一位叫 Jason Eisner 的计算机科学教授。
初到 JHU,李志飞最开始做的是分布式网络系统——不同于语音、NLP ,这并不是 CLSP 的主要研究方向。而他当时的导师是一个来自 MIT 的犹太人,对学生主动性要求比较高。在上算法课时,常常公式写了两条,就停下来看自己的股票是涨是跌,李志飞深感如果在他手下恐难毕业,于是才跳槽到了 Jason Eisner 的手下。
Jason Eisner 也是 JHU 强大师资中的一员,他不仅是计算机科学系的教授、编程语言 Dyna 的首席设计师,也执掌着微软 Semantic Machines (2015年 Dan Klein 和 华裔科学家 Percy Liang 的 NLP 项目,后被微软收购)研究,在解析算法、机器翻译和加权有限状态机等多个领域建树颇深,并且获得了 ACL2017 最佳长论文奖。
Jason Einser
而在李志飞眼中,Jason 是一位超级聪明的 NLP 大神。他说话语速极快,脑子转得也快——在 CLSP 办的会上,受邀参加演讲的嘉宾,不少都是带着不懂的问题来找到 Jason,来请他帮忙解答。
而在教书育人的角度,Jason 也有自己的一套风格。在课堂上,他每年都会根据业界最新的动态,来增删课程的内容,以让课堂能够跟上科技发展的前沿。
除了有 Jason Einser 传道解惑,李志飞在 JHU 里也和另一位 NLP 大神——David Yarowsky 有过合作,一起完成过一篇有关中文缩略语翻译的论文。
David Yarowsky
David Yarowsky,和刚刚提到的 Jason Eisner、以及哥伦比亚大学的 Michael Collins 都师承于宾夕法尼亚大学的 Mitchell Marcus 教授。而 Mitchell 也正是“宾州树库”(Penn Treebank)的作者,为后世的 NLP 研究提供了一套成熟的句法分析数据集。
师出名门,David Yarowsky 在研究词义消歧、跨语言学习等领域成果斐然。他性格有些可爱的古怪,被李志飞等一众学生称为“上帝”——David 从来不回复邮件,常常窝在四面都被书籍包围的办公室里,但几乎对天下事无所不知,颇有当年康德的风范。
早年间,吴军也曾在他门下学习。对同样酷爱读书的 David,吴军评价道:“他的藏书量和读书量可能都是我的十倍,但是他 95% 的书都只是浏览过。按照他的观点,绝大多数的书都不值得仔细读,但是阅读量大是有好处的,除了拓宽知识面,更重要的是能够让自己的想法保持客观中立。”
在 CLSP ,李志飞一个主要成就,是开源统计型机器翻译工具包 Joshua 的开发。使用并行和分布式计算技术,Joshua 的可拓展性很强,并且在 WMT09 的法-英转译上,实现了当时最先进的翻译性能和翻译任务,给后世留下了很深远的影响。
2010 年,李志飞也顺利从 JHU 博士毕业。5 年过去,谷歌的规模增长了十倍左右;仅 2009 年前后,谷歌在一年内就招收了 8000 名新人,甚至总部专门为此发函,谈“如何在增加招聘人数的情况下,不影响招聘质量”。
当时的谷歌,对李志飞也有足够的吸引力,为此,他还与陈昱通过电话,交流过谷歌的情况。
尽管都是谷歌,陈昱待过的地方是谷歌纽约,后来又去往上海;李志飞则是一头扎向了位于硅谷的谷歌总部,并且在那里一直待到回国创业出门问问。
彼时,谷歌研究院在硅谷的华人几乎凤毛麟角,除了李志飞,雷欣、赵勇、和李志飞在 CLSP 的学长徐鹏,加在一起不超过十个人。
在谷歌,李志飞的故事人尽皆知,他在谷歌总部主导机器翻译和语音识别的相关工作,与他在 JHU CLSP 的研究一脉相承,在谷歌的手机离线翻译的开发工作上,完成了很多贡献。
尽管风光正好,但李志飞并未在硅谷做过多停留。仅仅两年后,他就决定回到中国创业,这才有了后来的出门问问。
有人说,李志飞早在谷歌期间,就有了创业的念头。当时适逢中国移动互联网的大发展开端,回国的决定是天时和地利的融合。也是同年,吴军也从谷歌回国,加入了腾讯的搜索部门,与当时家大业大的百度、锐意进取的搜狗形成犄角之势。
而李楠——一位大致同时期也在谷歌工作的业内人士,却对雷峰网 (公众号:雷峰网) 表示,李志飞离开,归根结底还是语音和翻译业务,在谷歌并非如搜索、广告一般的核心业务,整体受重视程度不足,是比较边缘的一块领土。
“和服务大客户的 IBM 不一样,谷歌的基础架构当年的确是最好的——基础设施搭得好,上层应用可以很快速地迭代,这也让我们在很长一段时间里有竞争优势。”李楠评价道,“但难以直接转化成实际的营收和用户增长,对于 To C 的谷歌来说,语音还是很难站到主导的地位上。”
而另一位谷歌前员工安舍也表示:因为翻译的项目不赚钱,所以谷歌当时也没有投资源,算作一个纯粹研究性质的项目——而谷歌又想把它做得更大,所以在前两年,机器翻译组做的事情每年都要上公司的OKR,Och 要亲自向高层汇报进展,其中一项就是机器翻译要做到什么程度。
在谷歌离线翻译的项目上,李志飞和 Och 也曾经有过一些想法上的摩擦。Och 认为这个项目很难做出实际用途——他认为,只需三年,所有终端都可以完成联网,到了那时,离线包也就再也没了用途。
而同样在 Och 手下工作的徐鹏,知道前者是个“个人色彩浓烈”的领导,也更理解李志飞的处境,于是给了李志飞不少支持,也让李完成了第一版谷歌翻译的离线包。
直到今天,这个离线包都支持用户下载。
在象牙塔,李志飞多年的心血全部投入在机器翻译上,来到谷歌,却发现自己的专攻难有用武之地,肯定心里难受。技术先进和商业成果的矛盾,也是不少进入大厂的科学家们,所共有的一个命门。
在这个角度,出门问问的诞生也就成了必然。
2010年,除了谷歌退出中国,李志飞加入谷歌,CLSP 还发生了另外一件大事——徐鹏的导师,CLSP 的扛鼎之人,Frederick Jelinek 在一个普通的星期二,在实验室工作时突然伏案不起,倒在了工作岗位上,终年78岁。
失去了先驱的引领,CLSP 和却并未停步,未来的十年,随着一批又一批的人才加入,仍然群星荟萃,引领着 AI 语音语义技术的前进方向。
语音 AI 浪潮下的创业青年
Jelinek 溘然长逝,一颗引领着语音识别技术发展、为后世留下了诸多成就的启明星陨落。在当年 IEEE 悼念 Jelinek 的文章中,剑桥大学皇家工程院院士 Steve Young 评价他“He was not a pioneer of speech recognition, he was the pioneer of speech recognition.(是语音识别的先驱。)”
而此前,纯粹的技术至上主义、淳朴的学风,在 Jelinek 影响下的 CLSP 风格独特,许多青年学者慕名前来,Jelinek 的离去,不仅是语音识别领域发展的损失,对 CLSP 而言更是莫大的打击。
陈果果便是受到过 Jelinek 直接影响的学生之一。
陈果果是 2006 年绍兴市的高考状元,本科就读于清华大学电子工程系。
2010 年春节前后,陈果果还在读大四,这是他在绍兴老家度过的最后一个寒假。两个月前,陈果果向 JHU 递交了博士申请,如果通过,录取通知的时间正是这几天。
他打开网站,邮箱自动登录跳转到首页,在几条未读消息中,陈果果一眼看到了来自 CLSP 的邮件、通知他已被录取。Offer 落款处写着 Jelinek ,邮件内容简洁,只写了三件事:
第一、承诺给充足的研究资金;
第二、提供奖学金和生活费;
第三、在博士第一年结束时,可以去 IBM、Google 等大公司实习,做产学研结合。
对从事语音识别处理研究的学生而言,CLSP 是顶级学府、在语音、NLP 和分布存储系统领域极具话语权,可以接触到最前沿的技术;更不用说 Jelinek 亲自邀请,陈果果几乎受宠若惊,欣然接下了 Offer。
陈果果
同年 8 月末,陈果果乘上了飞往美国马里兰州的航班;也是那时,李志飞刚刚好毕业离开,横跨美国飞往硅谷,二人几乎擦肩而过。
但在陈果果入学不到半个月的时间,Jelinek 突发意外,陈果果也就此痛失了人生的导师。
随后两年里,陈果果跟随 Sanjeev 学习。那时候,CLSP 整个实验室的中国学生为数并不多,而陈果果惊喜地发现,和自己同年入学的姚旭晨,同样有着一颗“不安分”、喜欢折腾的心,因此两人早早便相约毕业以后一起创业。
姚旭晨本科就读于南京大学,在格罗宁根大学和萨尔兰德大学读的硕士。有两位 NLP 领域宗师级别的人此前都曾在萨尔兰德大学教书,一位是欧洲科学院院士、北京深知无限人工智能研究院院长 Hans Uszkoreit,另一位则是他的妻子、联想集团前副总裁徐飞玉。
陈果果在电子系做语音,姚旭晨则是计算机系 NLP 方向。由于 JHU 电子系和计算机系均归属于工程学院,因此,陈果果和姚旭晨虽然专业不同,但使用的是同一个实验室,两个人性情相投,经常一起玩耍。
姚旭晨
这段时期,Sanjeev 也在不停地为实验室物色新的教授人选。CLSP 研讨会的发展,对优秀师资的纳新起到了至关重要的作用。而前面提到的,开源语音识别工具Kaldi的主要开发者Daniel Povey就在这个时候登场了。
2012 年,陈果果迎来了他的另一位导师,语音识别大牛——Daniel Povey、现任小米语音首席科学家。
Daniel 的故事,世间流传不少。他最主要的成就,莫过于他在 2009 年一个 JHU Summer Workshop 发起的,语音识别开源工具 Kaldi。集成了隐马尔可夫等多种语音识别模型,Kaldi 自推出以来下载量多达 2 万余次。在 JHU 期间,陈果果也深度参与了 Kaldi 的工作,在上面贡献过大量代码。
但鲜少人知,Kaldi 最早被提出,正是 Dan 此前在一次 CLSP 研讨会上启动的项目。
20 世纪 90 年代,得益于基于 GMM-HMM 声学模型的区分性训练准则和模型自适应方法的提出,语音识别迎来了第一次产业应用的小高潮。为了降低研究门槛,剑桥大学发布 HTK(Hidden Markov Model Toolkit)开源工具包,彼时还在剑桥大学读书的 Dan 也深度参与了这项工作。
但到了 2010 年前后,HTK 开发步入停滞期,市面上几乎找不出第二个专门为语音识别而生的开源工具。那时候的 Dan 已经离开了 IBM、加入微软研究院工作。
觉察到开发者对产品内部维护的迫切需求,Dan 决心要为语音识别再做一个工作、类似于谷歌或微软用于内部维护的代码库,并以开源工具包的方式呈现。
这一想法受到了普遍开发者和企业的追捧。Kaldi 推出后,很快便在开源社区中占据了一席之地。
Dan 将 Kaldi 的成功归功于“除了 HTK 之外没有任何真正的竞争对手”,虽然 Kaldi 取得了阶段性的胜利,不过在 ASR (Automatic Speech Recognition,自动语音识别)软件包领域,仍旧没有能免费使用的替代方案。降低 WER(语音识别词错率)、给大家提供免费的语音识别工具,这是 Dan 的毕生所求。
但是,受限于自己在微软研究院的员工身份,早年想要在企业里做开源并非易事,微软的内部律师要求 Dan 不许更新 Kaldi 的新版本。
这意味着,如果想继续做开源,留给他的只有大学一个选择。
由于此前 Kaldi 和 CLSP 研讨会的渊源,因此,Dan 也自然而然地选择了加入 JHU。
JHU 期间,Dan 的研究工作主要由四部分组成,包括 Kaldi 的项目推广,关于无网格 MMI 训练和时延神经网络 (TDNN,这也是当时许多开源项目中具有前沿性的工作,与学生、开发者合作研究用于说话人识别的 d-vector,之后又与 Vassil Panayotov、陈果果以及 Sanjeev 合作完成了 Librispeech 数据集。
Daniel Povey
陈果果是 Dan 的第一个博士毕业生。两个人的第一次见面,Dan 就跟他说:“Send me emails whenever you have questions, I'm almost always online.(不管什么时候你有问题都可以给我发邮件,我随时在线。)”
话音刚落,陈果果起初根本不相信,他心想:怎么可能有谁会一直在线呢?但没过多久,这个想法就被事实打脸了。
在陈果果整个博士期间,无论是工作日或周末,他发给 Dan 的绝大部分邮件,都会在 5 分种内收到回复。对于 Kaldi 论坛上的问题邮件,Dan 也是如此,几乎每个问题他都会回答。即便后来端到端开始流行、原本的 Kaldi 版本落后,Dan 在加入小米后仍一直冲在前线、带队做出了 Next-gen Kaldi,到今天,Dan 每天还会自己写代码,在 Github 上的状态永远是绿。
可以说,“工作狂人”是刻在 Dan 身上最显著的标签之一。
遇上研究任务紧迫的时候,陈果果会被 Dan 喊到办公室里一起写代码。与 Dan 共处的两年多里,陈果果最大的感触便是:决不能浪费一点写代码的时间。甚至,有时候 Dan 还会不惜推掉一切社交,只为了能呆在办公室里工作。
有一次,实验室到华盛顿哥伦比亚特区附近参加一个 Babel 的项目会,会议结束时是下午三点多,即将开始下班高峰期。为了避免被堵在路上,Dan 便怂恿陈果果和自己先撤退。临出发时,因为陈果果倒车速度比较慢,Dan 主动要求自己来开车。
于是,陈果果目睹了 Dan 敲代码的双手迅速转动方向盘、飘逸倒车,一路飞奔往 JHU 的方向开,直到踏进 CLSP 的办公室才松了口气,开心地工作起来。
而除了对时间的严格外,另一个不能被 Dan 接受的,便是服务器不稳定。陈果果回忆,Dan 在很多事情上都比较宽容,但如果出现谁乱用服务器资源,则会受到他非常严厉的警告。在 Dan 看来,数据和计算资源对整个 CLSP 而言是极其重要的资产,要随时保证 CLSP 的每一个人都可以使用。由此可以推测,或许这也是为什么 Dan 在 2019 年“学生抗议”事件中,他毅然选择前往 JHU 行政楼试图夺回服务器的原因。这是后话。
说回陈果果。跟他的许多师兄弟一样,陈果果在读博期间也曾在谷歌实习过。
那时候深度学习刚刚兴起,而谷歌的语音团队也开始逐渐拥抱DNN(Deep Neural Networks)技术。2013 年 6 月,陈果果进入谷歌,也是在这里,他初次感受到了一项技术走出实验室、从研究到落地的产品魅力。
在谷歌期间,“Okay Google”的热词检测系统,是陈果果完成的最具代表性的工作。在此后的十多年间,“Okay Google”作为 Google Assistant 的标志性交互方式之一,进入了数以亿计的安卓设备,并让其他的语音助手如亚马逊的Alexa、苹果的Siri也都采用类似的语音交互方案。可以说,陈果果当时在谷歌的工作从某种程度上定义了接下来十多年间绝大部分主流语音助手以热词(又称为唤醒词)为主的交互方式。
“Okay Google”是一个热词检测系统。传统的语音识别交互方式中,如果用户想要使用语音功能,意味着麦克风功能必须保持长期在线,并对语音做持续识别转写,这种方法不仅功耗大、同时还会出现许多噪声引起的错误识别。为了改善这个问题,早期的语音助手一般采用 Push-to-Talk(随按即说)的方式,也即用户需要和语音助手进行交互的时候,需要首先点击一个说话按钮,再进行交互,这意味着和语音助手的交流依然离不开手的帮助。
陈果果提出的想法是,可否通过定义一个热词,算法随时监控该热词,当热词被触发之后唤醒麦克风来接受后续的用户信息,这便是“Okay Google”提出的初衷。这个不经意间的想法无意之中改变了主流语音助手的交互方式,比如 2014 年亚马逊推出的 Alexa 即采用了此种交互方式,2015 年苹果也给其语音助手“Siri”添加了“Hey Siri”热词唤醒。
有了清晰的思路后,陈果果说干便干,不到 1 个月的时间便将模型写了出来。但随后的性能提升以及产品化却并没有那么顺利。经过两个多月的日夜奋斗,陈果果终于在实习结束之前将热词系统的性能调至上线可用,该系统也在随后的 11 月份顺利进入安卓的正式系统。
陈果果在谷歌期间的另外一个重要收获是找到了自己此后的创业伙伴。彼时姚旭晨正好也在谷歌实习,两人在工作间隙便经常一起打球以及畅聊人生。两人惊喜的发现,不同于大多数人的选择,两人都希望在毕业之后可以做出一个属于自己的公司,而不是加入一个大公司。于是一拍即合,相约在毕业之后一起创业。
时间来到 2014 年,姚旭晨率先毕业,信守承诺单枪匹马前往西雅图创业。陈果果也紧锣密鼓地开始博士论文的撰写,准备一毕业即一起加入创业。
同一时期选择了创业的,还有已经回国的李志飞。
2012 年,李志飞手握红杉资本和真格基金的天使投资,回国创立出门问问,他的目标只有一个:探索下一代人机交互。
过去在谷歌的两年里,李志飞专攻 NLP,软件、硬件都做过,而李志飞当年的 demo 是有个简陋的交互界面的,就和搜索引擎一样,有个文本输入框,用户输入一句话,它在网上把答案找出来
值得一提的是,在早期开发阶段,出门问问正是围绕着 Kaldi 来做的。由此可见 Kaldi 在当时的影响力之大。
后来,李志飞带着团队做语音搜索,在费劲心思地拿到微信接口后,其产品账号入选了腾讯“十大公共账号”;又试水 APP,并在 2014 年将 APP 成功嵌入到 Google Glass 当中;此后还推出操作系统 Ticwear,发布智能手表 Ticwatch、闯荡硬件赛道……期间,出门问问的团队规模也在不断扩大,到 2015 年,出门问问已经成为以一家规模 230 余人、专注语音搜索应用的科技公司。
对陈果果和姚旭晨来说,2015 年也是至关重要的一年。
2014 年 9 月,姚旭晨单枪匹马来到西雅图创立公司,以一个艾伦人工智能研究所(AllenInstitute for Artificial Intelligence,简称 AI2)内部孵化项目的形式跑了一段时间,效益还不错。期间,姚旭晨和陈果果频繁电话,一方面更新自己在西雅图的进展,另一方面也希望陈果果可以尽快毕业,一起加入。孵化器的薪资收入并不丰厚,但姚旭晨却愿意将自己在孵化器的收入平分给陈果果。
两人随后将公司命名为 KITT.AI,并很快就开发了对话引擎 ChatFlow,可集成开发聊天机器人的各个模块。
姚旭晨(左)和陈果果(右)在 KITT.AI 办公室
而即便是今天,博士生毕业即创业,冒着没有绿卡的风险,拿到微软前联合创始人保罗·阿兰以及亚马逊Alexa Fund的投资,并在不到三年时间内顺利被国内头部企业收购,这其实是一件不可思议的事情。
但 2017 年,这样一件小概率事件突然降临到了陈果果和姚旭晨身上。“我们是属于比较幸运的一批人,赶上了 AI 的第一波浪潮。”陈果果说。
2017 年 7 月 5 日,百度第一届 AI 开发者大会在北京的国家会议中心里召开。会上,时任百度度秘事业部总经理景鲲宣布,百度全资收购语音技术公司 KITT.AI。
一时间,国内语音识别领域的从业者都关注起了这家远在美国西雅图、规模不足十人的 AI Startup。
在投资者看来,KITT.AI 的资本背书极为优越。它是全球唯一一家获得亚马逊 Alexa Fund 和微软联合创始人 Paul Allen 投资的创业公司,曾入选 CB Insights人工智能创业 TOP 100。
但令人惊讶的是,KITT.AI 的两位创始人却如此年轻。
主导收购 KITT.AI 的,是时任百度集团总裁兼首席运营官陆奇。西雅图被视为创业“圣地”、恰如今天大模型下的新加坡,许多国内投资人纷纷奔波海外,用敏锐的嗅觉,把握着信息和风向。KITT.AI 背靠亚马逊资本,有技术、又有业务,自然成为投资人眼中的香饽饽。在百度之外,姚旭晨也见了不少其他的潜在收购方。但百度战投的投资总监Peter Fang及其团队给他印象最深刻交流也最通畅。
最终选定百度,一方面是其开价足够有诚意,另一方面,也与百度在带屏音箱的布局有一定的关系。被收购后,KITT.AI 团队三个中国博士——姚旭晨、陈果果,以及曹原,一起加入了度秘事业部。
曹原也是 CLSP 的博士,主攻 NLP,毕业后参与开发了谷歌第一代基于神经网络的翻译(Google’s Neural Machine Translation System)系统,是其论文作者之一。之后加入 KITT.AI 任首席科学家,他性格低调沉稳,属于喜欢默默钻研技术的人。
KITT.AI 被收购后,姚旭晨、陈果果和曹原加入百度景鲲麾下,一起参与了百度音箱的开发,当时的团队也是今天小度科技最早的雏形。百度最早的智能音箱设有唤醒词,唤醒后可提供各种各样的技能,还设置了内容频道,主要是为了增加用户的使用频次。
不过,有着雄心壮志的青年往往并不止步于短暂的胜利,持续创造、并改变世界是他们前行的坐标。
就在陈果果和姚旭晨还考虑是否二次创业时,2019 年,由于“学生抗议”事件,Daniel Povey 考虑离开欧美“政治正确”的舆论环境,Dan 想到了遥远东方大陆上一个正冉冉升起的国家——中国。
Dan 对中国虽然并不了解,但 Kaldi 在中国可谓名声大震。一时间,Dan 的中国追捧者并不少。在一众拥趸中间,Dan 最终答应了时任小米集团副总裁、技术委员会主席——崔宝秋的邀请,来到小米重新开始,也成就了中国科技圈里的一桩美谈。
那些有过短暂交汇、散落世界各地的 CLSPer 们,最终在中国得以汇聚。他们的到来,也深深地影响了中国语音 AI 发展。
永不止步
今天的大模型赛道,徐鹏与之也有颇深的渊源:在谷歌时期,他就用统计方法做过 N-gram,调用了四五千台服务器,做到了三千亿的参数规模。
在当时,把模型做到线上,对系统功能的挑战很大。于是,徐鹏当时与 Jeff Dean 合作很多——徐鹏负责使用 map reduce 做语言模型,Jeff Dean 主做 survey。
多年后,在中国崛起的蚂蚁把眼光放到了海外,意图在湾区建立一个团队,漆远就找到了彼时正在谷歌的徐鹏。
2014 年,漆远就想过拉徐鹏加入,而当时,徐鹏刚刚撸起袖子加入谷歌广告,意欲在公司最赚钱的部门大展宏图,就拒绝了漆远的邀约。
而 2 年过去,徐鹏在谷歌的日子过得也并不舒坦。一个七八十亿美元盈利的项目,本来是徐鹏主导的开发,却因为公司内繁琐冗杂的跨团队沟通协同影响,比预期的进展慢了很多——这让徐鹏的心中也萌生了退意。
而蚂蚁给出的 Offer 则诚意满满:徐鹏加入即 P10,而蚂蚁在国内也挖到了李小龙、万昊、蒋松,在硅谷找来了宋乐,一同在湾区建设团队。当时,蚂蚁的 AI 路径还并不明确,徐鹏就保持了一个十人左右的小团队规模,只做对话机器人。
而此时,Tranformer 也正让越来越多的学界、业界前沿,关注到了 AI 走向下一个时代的可能性。在诸多远见者中,李志飞也是其中之一。
2020 年,已经成立了 8 年的出门问问,开始琢磨进军深圳。在深圳,李志飞在机缘巧合之下,见到了中国工程院院士、彼时已是 ACM Fellow 的高文,两人见面短暂探讨,话里就谈到了大模型。但高文当时行程拥挤,急着赶往下一个会,话并没有谈透。
当晚,高文组局,请李志飞吃饭,便不提大模型,只是希望李志飞帮他做机器翻译的老本行,有关大模型的事情,也就不了了之。
没有 ChatGPT 引爆市场,资本对大模型往往并不青睐。李志飞的团队,就在没有大笔外来资金注入的情况下,先训出了一个 7B 规模的模型。
继续寻找支持自己做大模型的人,李志飞又辗转跑了南京、北京等几个城市的经信委,当时能听懂大模型人的并不多。反而上海经信委的人,有关 GPT-3 更加看好,来过出门问问几趟探清虚实,最终决定支持,只是钱打来的时候,已经是 2022 年的 10 月份。
同是 2020 年,陈果果和姚旭晨两位好友又再度携手,在西雅图共同成立 Seasalt.ai,瞄准了云端通信方案及 AI 技术方向,推出了全渠道客户体验平台 SeaX,生成式AI自动化工具 SeaChat 以及对话智能平台 SeaMeet。目前 Seasalt.ai 以美国市场为主,在新加坡和台湾也有客户,类型涵盖了出海电商、旅游、银行等等。
按姚旭晨的规划,接下来 Seasalt.ai 的主战场还是会更聚焦在北美,一方面夯实东南亚基础,把大企业级应用做深做透,另一方面,此前 KITT.AI 创业时就是在北美,面对北美市场的客户自己也更有经验,聚焦 SaaS 企业服务。
而元旦刚过,2021 年 1 月的陈昱,在云启资本上海办公室附近的咖啡厅内,正在招待一位 JHU 女校友——贠烨祎。烨祎年纪轻轻,小陈昱十几届,却在谈吐中显露出了一众同年龄女性所难以具备的成熟和老练。
中国的科技圈,从不缺“千里马与伯乐”的故事。听过项目,陈昱的心动了——早对大模型有意的他,也曾在科技圈寻寻觅觅,但一个看得上的应用公司也没找到。
良机难得,陈昱敲定了这位 JHU 师妹带来的项目。短短三年过去,这家名叫 MiniMax 的 AI 公司,估值翻了 8 倍左右,也成为了在大模型赛道竞逐中的一号“种子选手”。
从 CLSP 走出的 AI 精英们,是彼时最具硅谷精神的一批人:他们接受了学界最前沿的教育,亲眼见证过语音、语言 AI 科学的发展和演进;
在象牙塔取得了成就,他们却不甘止步于实验室,偏要学以致用,把技术带向工业界。
怀着热忱,尽管经历风雨,他们改变世界的少年之心仍然火热地跳动,牵动着 AI 时代的每一次脉搏。
在语音 AI 崛起的浪潮之中,吴军、徐鹏、李志飞、陈果果、姚旭晨等这一批华人学者深度参与其中,成为推动中国语音技术进步和产业落地的重要力量。也期待他们在大模型时代书写出新故事。
(雷峰网雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。