「霰弹枪测序法」推动者、ACM Fellow姜涛:从中科大计算机,走入AI生命科学的光辉岁月
姜涛是极少数能同时把计算机理论和生物学都做好的学者。
近四十年的工作学习生涯中,姜涛最初并非从事生物信息学工作,而是研究计算机理论和算法。
直到1995年,他获得首次学术休假,决定利用机会拜师Richard M. Karp。人类史上规模最宏大的跨国跨学科工程人类基因组计划进行之际,就连Karp这样享誉国际的计算理论界泰斗都投身其中。
就这样,姜涛走上生信道路,新世纪后又参与了第二次生命科学浪潮——基因芯片设计与应用。
43岁,姜涛当选美国科学促进会会士(AAAS Fellow),又在一年后接连升任UCR校长讲座教授和计算机协会会士(ACM Fellow)。1988年博士毕业至今,姜涛发表了超300篇论文,高产期一年多达18篇。
回顾这一路的发展轨迹, 姜涛认为自己多少带有些运气成分,“个人成就总是离开不科学发展大环境,如此才能保证科研工作的影响力及可持续性。”
但换句话说,那又何尝不是时势造英雄,即所谓“时来天地皆同力,运去英雄不自由。”
中科大,学术的春天
1958年,兰州市郊北山之麓,一座新学校拔地而起。
此处黄土光裸、风沙肆虐,来人无不叹句荒凉。
原来,在铁道部的领导下,唐山铁道学院、北京铁道学院两所学校(部分系所及员工)迁至于此,组建起了这所新的“兰州铁道学院”,也就是后来的兰州交通大学。
“西部大开发”,一个充满了时代性的口号,将许多人的一生留在了那里。姜涛的父母就是如此,他们随唐山铁道学院西迁至兰州,把家安在了大西北,并养育了一对儿女。
上世纪70年代,我国部分地区的中学学制为四年(初高中各两年),等到姜涛1979年考入中科大时,也仅仅16岁出头。在当时平均年龄为16.7岁的同级学生中,姜涛比中科大少年班的学生也大不了多少。
实际上,姜涛完全有机会参加1977年的高考,当时已通过了省里的高考预考,但姜涛自觉书没读够,便拖到了两年后。兜兜转转,姜涛回到了老家安徽。
1984年,姜涛(左二)在中科大毕业时和室友合影
1978年3月,时任中科大校长的郭沫若在全国科学大会上发表了演讲《科学的春天》,鼓励全国的青少年学习当代科学技术,打破陈规,披荆斩棘,开拓我国科学发展的道路。
这篇激情洋溢的演讲令姜涛深受震撼,时隔四十余年,他仍然形容那篇演讲是“诗一样的鼓舞”。
同样在1978年,作家徐迟在《人民文学》发表了报告文学《哥德巴赫猜想》,这篇讲述数学家陈景润成长与研究经历的文章一经问世就引起了热烈反响。全国各地报纸、广播电台纷纷全文转载和连续广播,在当时掀起了崇尚科学的热潮。
1979年,来自西部黄土高坡的姜涛,与来自江苏张家港的周耀旗(现任深圳湾实验室系统与物理生物学研究所副所长)一起进入了中科大,还差点成了同班同学。
周耀旗曾介绍,1979年的高考化学科目非常难,他在这门科目上发挥得却不错,因为这个优势填报了中科大的近代化学系。
姜涛原本的计划也是学习化学专业。他的母亲曾在兰州铁道学院给排水系执教,研究水环境等相关课题,化学知识背景深厚。在母亲的耳濡目染下,姜涛的高考化学成绩非常优异。但在改革开放后,中国半导体产业逐渐进入全面复苏阶段,中科大无线电电子学系(现名为电子工程与信息科学系)成为了全国教育重心。
著名电子学家、时任中国科学院电子学研究所所长顾德欢先生出任首任系主任。姜涛谈到,“从实用性方面考虑,父母更鼓励我选择无线电系。”
那时,中科大各院系一直延续着“五年制+大一不分专业”的教学模式。入学第二年,姜涛选择了计算机专业。1982年,计算机专业独立建系,不再隶属于无线电系,姜涛也在这一年结束了长达三年的基础课程学习,开始进行专业课学习。
受时代所限,即便是中科大这样的高校,在七、八十年代能够提供给学生的上机机会也十分有限。姜涛描述,“只好把主要精力放在基础学科上,一边学习数学、物理、化学的课程,一边排队等待上机。”
一天,数学系的王树禾前来教授图论课,还是穿着他那件发皱的蓝色中山装。在姜涛的记忆中,王老师有科大组合数学四大天王之一的美誉,他编撰的《图论》深入浅出、鞭辟入里,被计算机系选为教材。
但更重要的是,他每堂课总是特意查找有关数学家的生平,为枯燥的内容增色不少。
王树禾、李炯生、陶懋颀、李乔(从左到右),在中科大被称为组合与图论四大天王
那堂课结束后,姜涛很快便找到了一个可行的科研方案——理论研究,从自己擅长的数学与算法入手。
后来,在王树禾教授的鼓励之下,他便将目标确定为一个悬而未决的图论问题:哈约斯猜想(Hajós' Conjecture)。实际上,这个猜想早在1961年就由法国数学家哈约斯(Hajos, G.)提出,简单来说,就是如何将一个图拆分成少量不相交的圈。
经过半年的研究,尽管姜涛没有完全解决这一问题,但他至少在平面图的范围内证明了哈约斯猜想。后来这一成果于1984年发表在中科大的学报上,是姜涛为数不多的中文研究成果,也成为了他竞争郭沫若奖学金的重要成绩。
值得一提的是,由于新中国此前从未设立过学金,只有“助困”性质的人民助学金,郭沫若奖学金也被视为“新中国第一奖学金”,更被无数科大学子视为梦寐以求的最高奖。
1982年开春,学校隆重举行1981年度郭沫若奖学金获得者、三好学生、优秀学生干部授奖大会。获奖者有姜涛、白重恩(清华大学经济管理学院院长)。
对姜涛而言,这是他学术生涯的起点。
选错学校、自挣学费,一份轰动性的计算机成果
姜涛的出国经历堪称曲折。1984年,姜涛与周耀旗同年毕业。
相比之下,周耀旗获得了国家公派留学的名额,在中山大学进行一年集训后顺利出国。而姜涛所在的计算机系,在中国仍是一个新兴学科,并不属于多个公派留学的计划覆盖范围之内。
于是,姜涛准备“曲线出国”——报考清华大学的研究生,争取已分到清华的日本留学名额。
可在准备考试之前,中科大计算机系公布了公派留学计划——从应届毕业生中选拔一些优秀学生出国留学,毕业后回到中科大任教。尽管一番折腾,姜涛最终拿到了留学名额,并通过了英语考试。
出国在望,手续却不太顺利。
这项留学计划原本启动时间就比较晚,且当时国内的计算机科学底蕴尚浅,姜涛与国外几所高校沟通留学事宜都没有成功。原定于1984年秋天启程的留学之旅,便拖了下来。
经过漫长的等待,两封来自美国的录取通知姗姗而来,一封来自马里兰大学,另一封来自明尼苏达大学。这两所学校都被是公立名校,但相比较而言,马里兰大学的计算机专业排名要更靠前。
然而,那个年代信息流通缓慢,姜涛找来的一份美国大学计算机科学专业的排名(Gourman Report),显示明尼苏达优于马里兰。所以,拿着这份“过时”的排名,1985年初,姜涛去往明尼苏达大学。
1986年于明尼苏达大学
作为中科大计算机系的公派留学生,姜涛这一批学子担负着学成归国任教的任务。在挑选专业时,姜涛站在学校和国家更需要的角度考虑,选择了当时国内尚未开设的软件工程专业。
一段时间后,姜涛发现软件工程专业的很多课程自己没有学过,很难跟上进度。加上当年在科大排队上机的经历,让他在编程功底上欠缺太多,于是决定转向其他研究方向——计算机理论。
当时的明尼苏达大学计算机系中,这个方向的老师并不多,姜涛选择了其中一位美籍菲律宾教授Oscar Ibarra。这位教授当时正在进行晶格自动机(cellular automata,作为并行计算的一个基本模型)的研究.因此,姜涛博士阶段的研究主要围绕这一主题进行。
生计问题是姜涛在留学期间的另一重压力。
国家资助了姜涛留学第一年的学费与生活费,次年开始所有的开销都要自己承担。于是姜涛选择了在当时最适合学生做的兼职——担任学校的教学助理与科研助理,获取奖学金。读博士期间,姜涛有一半的时间在做教学助理,另一半的时间在做科研助理。
1987年,姜涛在晶格自动机通讯复杂度研究上取得了初步成果,开始参加国际学术会议;1988年,攻读博士学位不到四年的姜涛已经达到了毕业标准。
毕业前夕,姜涛参加在华盛顿特区举行的IEEE Structure in Complexity Theory年会时,结识了会议的一位“圈内人物”——李明。
李明已经博士后毕业,在美国任教,和姜涛一样是一位纯粹的计算机理论研究者,与生物学的缘分尚未来临。但这次的会面为二人在加拿大重逢,成为关系密切的朋友与合作伙伴,共同研究生物信息学埋下了伏笔。
二十世纪八十年代末,留学生想要留美任教手续十分繁琐,难以获得签证,毕业后往往要先离开美国一段时间,再回去才能应聘教职。作为北美州唯二的两个发达国家,加拿大与美国毗邻,二者的社会文化环境、科研条件等都较为相似,几所杰出的高校也具有很好的科研基础。
在美国签证发放不断收紧的情况下,姜涛前往加拿大的麦克马斯特大学任教,李明也离开了美国前往加拿大工作,先后入职约克大学与滑铁卢大学,和姜涛所在的麦克马斯特大学车程不到一小时。
1994年,姜涛(居中)在麦克马斯特大学的科研团队
初到加拿大,姜涛在当地的计算机理论领域“举目无亲”,不远处的李明既是老乡,又是在美国求学时的旧相识,自然而然地来往密切起来。
“对我来说,李明是一位兄长,我在工作上得到了很多他的帮助和提携。”
李明比姜涛年长几岁,向来不吝惜向姜涛传授自己的科研经验,甚至于后来姜涛转向生物信息学的研究也与李明的鼓励密分不开。除此之外,两人在Kolmogorov complexity理论在计算复杂性及算法平均复杂性分析中的应用方面也有多项合作,并解决了多个著名难题。
二十世纪九十年代初,在李明的激励下,姜涛参与到人类基因组计划中的一个重要测序方法——霰弹枪测序法的研究之中。其中一个相关的重要问题是:当给定一组字符串后,怎样计算它们的最短公共超串(shortest superstring)。
姜涛首次得到了一个著名算法的线性逼近分析。后来,团队中又加入了来自荷兰CWI的John Tromp、 MIT的Avrim Blum、贝尔实验室的Mihalis Yannakakis三位学者,合作发布了一篇STOC论文《 Linear approximation of shortest superstrings》,在当时的计算机理论领域引起了强烈反响,带动了一大批做算法的学者研究这一问题。
2006年,姜涛(右一)和李明(左一)合影
可以说,霰弹枪测序法是姜涛的生物信息学入门之作。
1994年,姜涛和他在麦克马斯特大学的第一个博士生王鲁生,以及加州大学伯克利分校的Eugene Lawler教授(著名组合数学家;已故),合作开发了一个关于多序列比对的快速近似算法。
这一算法在当时引起不小的震动。不少本领域的权威人士,如Pavel Pevzner、Eugene Myers、Webb Miller等都认为“这个结果既 surprising ,又非常deep”,并被写进多本生物信息学教科书。
1995年,姜涛和王鲁生以及另一位在加拿大西安大略大学的张凯中教授合作,一起开发了一种比较树结构的方法,称为“树比对”,并于当年发表。这种方法较传统树结构比较方法(树编辑)在计算上有多种优越性,所以也在生物信息领域之外(如数据库查询,XML数据处理等)得到广泛应用。
这一研究的份量在姜涛看来不轻,因为长期以来生物信息学总是借鉴其他领域的方法,如,机器学习、数据挖掘、自然语言、图像处理,“而它是为数不多的,将生物信息学方法推广到其它领域的范例之一”。
这是姜涛从计算复杂性理论转向算法研究的分水岭,却不能算是他进入生物信息学领域的标志,“这时候我还从还没有真正看过生物数据,只是做了一些算法问题。”
直到1995年学术休假时,李明建议姜涛,“生物信息学现在非常重要,我们应该尽早涉入。”
拜师计算机理论大佬
出于对李明的信任和尊敬,姜涛决定利用学术休假学习生物信息学。
1995年,姜涛利用一年的学术休假“拜师”Richard M. Karp。Karp(1985年图灵奖获得者)是一位计算机理论、算法领域的大师,一生有诸多传奇。1968年,他离开工作十年的IBM沃森研究中心,前往加州大学伯克利分校(UC Berkeley)工作。
那里是计算机科学理论的一个著名研究中心,Stephen Cook(1982年图灵奖获得者)、Manuel Blum(1995年图灵奖获得者) 、姚期智(2000年图灵奖获得者)等一批知名学者都先后在此任教,学术气氛十分浓厚。
不过,这样一位计算机科学界的顶级大佬,在90年代初期来了一个“大转弯”——将研究重心移到了生物信息学领域。
这在学术圈是轰动性的大事。很多学者猜测是由于HGP(人类基因组计划)的启动,使得Karp看到了计算科学在基因组测序及分析方面的潜力。没过多久,Karp本人就亲自证实了这一猜测。
姜涛是最早得知Karp研究变动的人。1995年,在姜涛发去拜师邮件后,很快便收到了Karp的回信:“我即将搬去华盛顿大学(西雅图),你有没有兴趣同往?”
1993年,人类基因组计划的发展如潮水般凶猛,自动化基因测序仪的诞生推动HGP进入了实质性的运作阶段。1994年,3000个(原计划为600- 1500) 标签分辨率为1CM (即1%重组率)的遗传图谱的绘制,标志着HGP进入一个新阶段——物理图谱绘制阶段。
Karp之所以要动身去往西雅图,一个重要原因是HGP的研究中心之一设在了“西雅图华盛顿大学基因组测序中心”。现在,有一个机会摆在姜涛面前。
这个中心里,领导者是物理图谱领军人士及人类基因组计划发起人之一Maynard Olson,具体合作者包括Gane Wong及于军,大家共同创立了当时世界上最严谨、精确、系统的基因组物理图谱制作方法——多酶完全水解物理图谱,还将其用于规模化物理图谱制作,并为基于克隆的DNA测序提供直接材料。
那时候姜涛还没到35岁,但觉得时间过得飞快。这是一段绘制人类DNA图谱的“军备竞赛”,医药公司以及私营企业实验室加入竞争,迫使人类基因组计划陷入一场疯狂角逐。
姜涛逐渐认识到,“在生物学问题里,不能再为了做出漂亮的算法而只关注简化后的数学问题,必须直面所有真实的生物数据。”
如今,姜涛仍对那段经历印象深刻,很大一部分原因是此前他从未脱离老本行,即便是合作一些生物课题,也是将自己定义为一名计算机理论学者。
Karp看出了姜涛的疑虑,临别之际他送给了姜涛一句话,“没有关系,都是科学,不要太关注领域的界限。”
姜涛与Richard Manning Karp教授
重回麦克马斯特大学,姜涛赶上了被誉为“加拿大基因组计划”的CGAT项目(Canadian Genome Analysis and Technology)。该项目计划耗资2200万美元,为期5年,用以资助加拿大学者从人类染色体图谱绘制和小鼠免疫系统基因测序,到社会问题研究的所有项目。
姜涛与李明再续合作,顺利申请到第一批经费,约十几万加元。
姜涛称,“尽管这笔经费并不算多,但提供了认真去做生物信息学的良机。”
不过,加拿大启动基因组计划,只是HGP推动各国参与生命科学大讨论的冰山一角。
自1999年以来,伴随着测序仪的改进和新的用于组装和注释软件的开发,人类基因组测序已在全球数十个主要研究中心全面展开。这也意味着,HGP培育了一种新的科学研究协作文化。
1999年,姜涛去往美国加州大学河滨分校(University of California - Riverside,UCR),任计算机科学与工程系教授。对于这次任职,姜涛一是想认真做生物信息学,二是加强与生物学背景的学者合作。
因此,即使李明已经邀请他去往滑铁卢大学任职,但考虑到河滨分校拥有世界级水平的植物系,姜涛还是选择了后者。
他讲到,“我在工作面试中能感觉到,该校的教授们非常愿意和计算背景的人合作。”首位向姜涛伸出橄榄枝的就是一位植物遗传学大咖——刚上任UCR自然科学与农学院长不久的Michael T. Clegg教授。
Michael T. Clegg教授
Clegg希望在任期内完成一件事:重振正在衰退的统计系,发展新兴学科。
因此,他对生物信息学很感兴趣。姜涛的到来让他看到了希望,两人迅速讨论决定合作研究一些植物基因的遗传机制并全面分析植物基因组中的各种重复序列。
经历了半年的前期准备工作,2000年,两人与当时刚搬到加州大学圣巴巴拉分校的李明合作,成功申请到了NSF-ITR第一批大规模项目。
对他们来说,此举相当有振奋意义。“这个项目不仅是由美国国家科技署发起的支持信息技术优先领域的特殊项目,而且第一批大规模项目的命中率不到1%,结果还是由白宫直接官宣。”
毫无疑问,姜涛也借此打响了在美国任教的第一枪。
“算法是终身兴趣,生信是一生事业”
今年是姜涛在河滨分校任教的第23个年头。这些年里,姜涛发表论文300余篇,是一位名副其实的“多产型学者”,也是一位炙手可热的“合作者”。
2001年,姜涛被第二位合作对象“锁定”,植物病理系的James Borneman教授。
Borneman是一位微生物学家,多年来一直与多个实验室合作,希望了解微生物在病原体和疾病中的作用。
当时他敏锐地注意到,“DNA微芯片技术”正成为各国学术界和工业界研究和开发的热点,尤其在1998年6月29日美国宣布正式启动“基因芯片计划”,联合私人投资机构投入了20亿美元以上的研究经费后,以基因芯片为核心的相关产业迅速在全球崛起。
这对Borneman来说无疑是他从事微生物研究的最佳窗口期。他难掩激动,“这场研究消除了人工培养微生物的环节,将推动我们研究成千上万的微生物。”
所以,对于这场“豪赌”,Borneman必须选对团队。
他注意到,姜涛的丰富算法研究经验将对芯片探针的设计至关重要,加上他在生物信息学中的积累,正是此次项目的最佳合作人选。
在姜涛的帮助下,系里的热衷于算法的同事Marek Chrobak也加入进来。
这是一位波兰学者,早年工作与姜涛在加拿大时从事的计算复杂性分析有不少交集,此次姜涛亲自邀请自然是热情接受,姜涛因此感慨,“我来UCR做起了生物信息学,至少系里有一个人能够理解自己。”
紧接着Della Vedova Gianluca(来自Milan Bicocca University的一位访问学生)、UCR博士生Andres Figueroa的加入,五人团队的人选正式敲定。
James Borneman、姜涛、Marek Chrobak
2001年,以Borenman教授及姜涛为主导开发的OFRG技术(Oligonucleotide Fingerprinting of rRNA Genes),一度成为当时最先进的微生物群体分析手段,可以用来分析植物根部土壤中的微生物群体组成。
时隔多年,姜涛站在更长远的视角上,认为“这次研究在基因研究历史上影响并不大,很快便被大规模测序技术普及所替代”,但值得一提的是,这次研究却奠定了姜涛此后的一个研究主线:利用计算机科学的手段解决实际的生物学问题。
此后,姜涛频繁开展相关领域的合作,其中之一是与同校的分子生物学家Frances M. Sladek合作。
她多年通过实验手段研究核受体的调控机制,于2002年找到姜涛想通过计算方法来扩大研究范围,加快研究进程。因此二人研究发明了一种新型马尔科夫链(当时起名为optimized Markov chains,后被人改称为permutated Markov chains),并建立一个重要核受体(HNF4a)绑定位点当时最大的数据集。
2003年,姜涛(红衣居中)与UCR科研团队
除此之外,姜涛还赶了一个“时髦”。
在RNA-seq技术出现不久之后,基于RNA-Seq数据的转录组组装,即从数百万个短读段中重建所有全长mRNA转录本并确定它们的峰度,成为分子生物学学界的一大挑战。
2010年,姜涛和UCR博士生李炜、清华大学访问学生冯建兴,共同提出了一个通过RNA-seq读段来重建转录组,并估计每个mRNA转录本(isoforms,也叫基因异构体)峰度的算法,称为Isoinfer,属于这方面最早的方法之一。
2011年,姜涛与团队利用数据的稀疏性,对这个算法做了进一步改进,称为Isolasso,并得到了更广泛地应用。这一研究的影响是广泛的、双重的。
首先,由于下一代测序(NGS)技术的快速发展,及其对生命科学和医学的潜在影响,RNA-Seq数据分析在生物信息学中属于时兴主题。
其次,尽管许多RNA-Seq应用程序取得了成功,但在RNA-Seq数据分析中仍然存在不少挑战,其中之一来自RNA-Seq读取中的偏差的理解和处理。
因此,姜涛等人提出的处理RNA-Seq偏差的方法,属于结合了统计学、机器学习和组合算法的技术典范。
2002年夏天,姜涛开始频繁回国访问并到清华担任客座教授,为新世纪初的中国生物信息学事业做出了重要贡献。而他做的第一件事,就是和大学同学钟扬恢复了联系。
实际上,两人自毕业后已经十七年未见。但当年钟扬在复旦大学研究植物多样性及进化并开始对生物信息学发生兴趣。通过同学关系联系上姜涛后两人一拍即合,确定了合作关系,并共同承担了国家基金委第二期“龙星计划”生物信息学在复旦的授课。
2005年,两人首次提出了一个利用基因在基因组上的顺序来分析直系同源基因的一个新方法,解决了同源基因序列极其相似的难题。
2002年,姜涛与钟扬于虹桥机场,2010年钟扬在姜涛所在的UCR实验室。
值得一提的是,2002年徐鹰回国创办了生物信息国际研讨会(IBW),不仅打开了国内外学术交流的通道,更在此次会议中讨论做出决定:“以后每届的IBW会议,都在会议所在地,开会前办五天的龙星计划。”
如此一来,国内生信队伍原本各自为营,但在徐鹰等学者的努力下聚集起来,有力的推动了生物信息学在国内的发展,姜涛在此后的很长时间里,也成为IBW会议的“常备军”。
第三届IBW议特邀代表与部分学生(姜涛在前排左一)
几乎在同一时间,2003年,姚期智在清华计算机系成立了一个“计算机理论讲席教授组”,姜涛成为最早入组的学者之一。
实际上,这正是姚期智在清华开创的特殊教育模式。
为培养中国的计算机精英研究生,姚期智希望吸引海外人学者回国授课,但每位教授回国时间又很有限。
“姚先生想到了当时清华初起的一个好办法,成立一个6-10人讲课团队,每个人讲一两个月的课,加起来就是一整年的课程,保证了对学生培养的连续性。”
姚期智教授
由此,清华的计算机学科第一次集齐了理论、应用、系统结构和软件四大领域的优秀学者,分别为姜涛、邓小铁(香港城市大学)、堵丁柱(德州大学达拉斯分校)、李明(滑铁卢大学)、蔡进一(威斯康星大学)、尹依群(普林斯顿大学)、滕尚华(波士顿大学)、刘燕虹(纽约大学石溪分校)、Ko Ker-I(纽约大学石溪分校)、邵中(耶鲁大学)。
到2007年,姚期智建立了清华大学理论计算机科学研究中心,扩招研究生,同时组建了第二届讲席教授组20人,其中美国国家科学院院士4名、美国人文科学院院士2名、美国国家工程院院士1名、奈望林纳奖得主2名。
随着各个讲席教授组在清华的成功,自动化系决定成立一个“计算生物学讲席教授组”。通过李衍达院士,张学工教授及美国冷泉港实验室的张奇伟(中科大77级)的努力,这一想法很快得到实现。
2008年5月,清华大学自动化系下的“生物信息学与系统生物学讲席教授组”正式成立,美国南加州大学教授、计算生物学奠基人之一Michael S. Waterman教授受聘为讲席教授组首席科学家,讲席教授组的成员包括姜涛、张奇伟、王永雄、刘军、孙丰珠(博士师从Waterman),陈挺等著名世界级学者。
至此,我国第一个生物信息学与系统生物学研究中心诞生了。
2012年长城上,姜涛(前排左一)与Michael Waterman (居中白帽者)、张奇伟(带墨镜者)等清华同事以及学生合影
近些年来,姜涛长期在清华大学访问,和多位教授合作培养了六名博士生,研究领域主要集中在算法及机器学习方法在生物信息学领域的应用上,尤其是RNA异构体功能的预测。在与雷峰网的交流中,姜涛极认真地说到,“算法是我的终身兴趣,生物信息学是我一生的事业。因为生信领域有大量数据,包括不同物种的测序数据,是机器学习理想的应用场景。同时,这一领域缺乏基准真相(ground truth或标签),又极具有挑战性。”基于这个想法,姜涛多年来的研究主线从未出现偏差。这是正是很多计算机科学出身的学者极为重视的一点。只不过,姜涛的态度很明确,他是一个依旧谈论“理想”的人。“我希望建立一个像基因功能数据库Gene Ontology (GO)一样的基因异构体功能标注数据库,并得到广泛应用,让基因异构体之间的功能差异得到更多生物学家的重视,使得今后我们每当谈到基因功能时,必想到不同的异构体。”为了这个理想,姜涛还有很长的一段路要走。
未知是最大的动力
有意思的是,这么多年过去,姜涛一直没做两件事,一是管理工作,二是发朋友圈。
这是姜涛刻意为之。他坚持认为,自己的性格不适合做管理工作。早在中科大读书之时,他就已做了取舍:宁可泡在图书馆里找课题做研究,空余时间在足球场上踢出一身汗,也没有考虑去竞争学生会组织工作。
近年来,姜涛的博士生每年稳定在五名以上,高峰时曾经到过十来名,他更不考虑谋个管理职位,而是省出时间多和学生一对一交流。
“你能想象,如果和每个学生每周都深聊的话,还是非常忙的。”
至于朋友圈,他谈到,“作为一位理论研究工作者,我写作的速度跟思考的速度远远不匹配,所以发朋友圈对我来讲跟写论文一样,是件大事,需要认真计划。”
但这样一位学者,却对社会学、心理学很感兴趣,总觉得自己的科研和兴趣爱好终究会联系在一起。
“当年出国时基本上对美国社会一无所知,很长时间是通过看美剧来了解美国的家庭及朋友圈文化。
但在美国生活了这么多年,孩子们长大以后却告诉我电视剧所描述的与真实生活差别还蛮大的。”
在对生活和研究上,姜涛的态度都是一样,未知是最大的动力。
作者注:
1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。
目前,雷峰网启动《生物信息学的三十年往事》专题,将陆续推出徐鹰、潘毅、周耀旗、许东、姜涛、张奇伟、唐建等新老学者的人物故事,记录光辉岁月,以照后人之路。
关于生物信息学的更多故事,欢迎与本文作者吴彤交流,微信号:icedaguniang
雷峰网 (公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。