ACL终身成就奖得主李生:自然语言处理研究的五点体会
雷锋网 AI 科技评论按,近日,北京语言大学语言资源高精尖创新中心与中国中文信息学会联合主办首届「语言智能与社会发展」论坛,多名来自教育部、高校、语言学界、机器翻译界、企业界的重磅嘉宾出席。会上,ACL 终生成就奖得主、自然语言处理领域泰斗李生教授进行了精彩的发言,阐述了人工智能对自然语言处理所带来的突破性改变,以及它的一些局限性。
李生,哈尔滨工业大学教授、博士生导师。自然语言处理(NLP)领域专家、ACL 终身成就奖得主。李生教授先后主持了 10 余项包括原航天工业总公司、「863」计划、国家自然科学基金等科研项目,获得 7 项部级科技进步奖。他自 1985 年开始研究汉英机器翻译,是我国最早从事该方向研究的学者之一。他带领团队研制的汉英机器翻译系统 CEMT-I 于 1989 年成为我国第一个通过技术鉴定的汉英机器翻译系统,其在机器翻译技术及其相关的句法、语义分析等自然语言处理方向成就卓著,为机器翻译在中国的发展做出了开拓性贡献。
作为中国改革开放以来最早从事自然语言处理研究的学者之一,李生教授除了自身的科研成就以外,更为中国计算机领域培养了一批成就卓著的青年专家,包括 ACL 首位华人主席、百度公司技术副总裁王海峰博士,微软亚洲研究院首席研究员周明博士,国家杰青获得者、苏州大学计算机学院副院长张民教授等,为中国计算机技术一代又一代的发展贡献了力量。
以下为李生教授发言内容:
大家都谈到语言和人工智能的关系,我是搞自然语言处理的,我深切地领会到从 16 年开始真正掀起的第三次人工智能热潮。说人工智能对语言、图像和语音识别起到翻天覆地的作用,那好像夸张了一点,但是确实,人工智能起到了很大的作用。
比如说图像识别,现在由于有了深度学习,有了多层人工神经网络之后,我们在这方面的成果确实突飞猛进,包括现在的刷脸技术,基本上已经用在很多地方了,如车站、码头、机场、无人售货商店等。神经网络解决了一个很大的问题,以往进行特征提取时,需要通过人工提取,难度很大,有了深度学习之后,机器自动提取特征,难度相应减小。其他如语音识别、机器翻译也都突飞猛进,深度学习在这当中起到了很大的作用。我觉得在图像识别、语音识别和自然语言处理当中,机器翻译算得上是难度最大的一个研究方向。
所以我想谈几点体会:
第一,语言智能是人工智能的最高层次或者最高阶段,语言智能在未来人工智能的应用上有着举足轻重的作用。
我对语言智能的理解就是,它是自然语言处理(NLP)和自然语言理解(NLU)的人工智能化,这应该是人工智能的最高层次。很多人说目前这个时代,CV 在人工智能中唱主角,未来可能会由 CV 转成 NLP,NLP 要唱主角。
大家常说,比尔盖茨说过一句话,「自然语言处理是人工智能皇冠上的一颗明珠」。这句话不是比尔盖茨说的,当时我们在刘挺老师课题组关于情感分析的一个会上,微软亚洲研究院常务副院长周明博士说了这句话,周明说由他来说分量不够,想算成我说的,我说这样不行,然后他就把这句话移到比尔盖茨身上了。大家现在知道了,这句话的真正出处不在比尔盖茨。
NLP 的目标是实现自然语言与机器语言的连续交互。人讲的语言,无论是汉语、俄语、日语,都属于自然语言,机器能够识别的叫机器语言,现在的交互,既有人和人的交互,也有人和机器的交互。我们的目标是实现自然语言与机器语言之间的理解、转换与生成,这也是为什么我认为语言智能是人工智能的最高层次。
语言和文字是人类区别于其他动物的至关重要的标志,我觉得它对人类社会目前发展至少起到两方面作用。一是大家的协同合作,比如在座各位教授不同课题组之间的合作,例如合作协议也是用语言文字记下的。第二就是代与代之间的文化传承,这也是靠文字。我担任中文信息学会理事会理事长时,有些少数民族没有文字,只有语言,这非常可惜。
我谈的第二个观点就是自然语言处理的核心问题(或难度最大的问题)是机器翻译。
机器翻译分为三个阶段:第一个阶段是基于规则的机器翻译。那个阶段会先把文章中打乱的句子变成单词,之后再查字典,然后进行翻译,翻译之后,可能中文跟英文并不完全对应,需要再按照语法规则进行调整,最主要是调序的问题。第二个阶段是基于统计的机器翻译,在 15、16 年之前,我们都是使用这个方法。第三个阶段是最近几年的基于多层人工神经网络的深度学习机器翻译。
机器翻译在近些年间,在这三个阶段其实有两个重大的变化,一是语法上的,乔姆斯基的生成语法理论,第二就是深度学习。原来大家一直对语义分析犯愁,但是深度学习已经开始对语义分析进行探险,大家知道词嵌入的方法,现在把词向量再进一步发展到句子向量,含有语义信息了。在处理过程中,对于单语种,比如说词汇的语义信息,可以把语义相近的靠在一起,不同语种的源语言和目标语言的分布式处理办法,也可以把源语言和目标语言语义相近的一起靠。这个虽然不能说从根本上解决问题,但是减轻了人对语义分析很大的忧愁。
第三个问题就是机器翻译的难点和重点。
我很头疼的是科学性和艺术性,如艺术性的规律怎么总结出来。另外,自然语言具有高度开放性和高度灵活性。在开放性上,如网络出现以后,新词不断涌现,例如粉丝这个词汇。在灵活性方面,可以自己随便去组词,这些新组成的词也很让人头疼。
语义理解说白了就是对说话人意图的理解。意图理解与上下文有关系,但是语言本身存在歧义性和多样性,另外,语言高度依赖知识,大家都知道常识知识,例如煤球是黑的,元宵是白的,小孩子常说,「地球人都知道」,但是机器不知道。另外还有领域知识,上下文、语言、环境等都会影响对语义的准确理解。实际上在多对多的翻译中,根据当前的语境找出一种最为合适的译文,我觉得这是个难题。
第四个问题,人工智能也好,机器智能也好,人类对他们有个共同要求——学习和求解问题的能力。
人的学习是没问题的,回顾一下,人在小时候可能是凭感性认识,或者直接学习比较多。看到一只猫,妈妈会告诉你这是只猫,会给你留下印象,你会抽象出概念。到了公园看到老虎,老虎和猫长得差不多。小孩会问,这是不是也是猫,妈妈就告诉你,这不是猫,这是老虎。怎么区别老虎和猫呢?最起码老虎的个头比猫大。小孩子他不一定能记太多,记住这个就基本上会区分了。
对于学习,人一开始通过感性认识,即感知,进行自主学习,到了一定阶段,他就从家长的不断教导、老师讲的课程或者从媒体上接触新东西,不断积累知识,这是间接知识。
前面这种学习方法叫无监督学习,后面这种学习方法叫监督学习。人的学习是小样本学习,将无监督学习和监督学习结合起来,而机器现在需要依赖大量标注数据来进行学习,即监督学习,例如前面描述的图像识别,就是通过大量的标注图像不断学习。机器学习相对于人的学习来说,受限太多。
有人说我们现在走在感知到认知的路上,在感知问题上,不能说大的问题基本上解决,但已经解决了一部分。在认知阶段,形成对语义的深层理解难度还比较大,这是计算机下一步要发展的。
人工智能突飞猛进,解决了很多过去想都不敢想的关键问题,但这只是初步的,它还有好多解决不了的致命问题,比如方才所说的常识知识,以及思考和逻辑推理的问题,这对机器学习也是一种制约。我们人类有了知识之后,可以不断推理和思考,但是人工智能现在还不具备思维和推理能力,特别是不具备前面说的常识性知识。
我的观点就是,如果不能解决常识性问题和逻辑推理,要想实现通用人工智能或者机器认知,就会非常困难。现在的研究应该在这方面多下些功夫。虽说现在也有思考对语义的理解,比如 18 年 10 月,谷歌推出了 BERT 双向编码语言模型,但这个模型消耗的资源代价还是比较高的。
另外,深度学习确实解决了人工智能的很多问题,但是除了深度学习之外,还可以探讨其他人工智能的算法和模型。我们需要做更多的深度的理论研究和探讨,掌握好核心技术。理论深入之后才能有技术,有了技术之后才能有算法和模型。
最后一个问题就是大家常谈到的问题,过去也说了很多。「机器会消灭人类」,「机器将取代人」,尤其是以不久前去世的霍金为代表的许多人主张这一观点。我从来就持相反的观点,我认为机器代替不了人。
现在的人工智能还只是弱人工智能,不是强人工智能,也不是超强人工智能。现在人工智能的作用,还是用机器代替简单的、重复的以及危险性的劳动,想要解决找不到规律的问题,人工智能还不能做到,也代替不了人。人要尽量用好机器这个助手,自如地运用好机器,这样既可以提高工作效率,也可以保证质量。
今天大家谈到外语教学,我觉得人工智能对外语老师和外语专业的学生都不会有太大的影响。低水平淘汰是自然规律,例如讲不好的,没有科研能力的教师,该淘汰就得被淘汰。原来大家争论最多的是医生,说医生要被淘汰,医生与教师一样,是很难被淘汰的。医疗影像诊断还得靠水平高的医生来看。
包括我前面说的翻译,也是一样,我觉得最好的翻译、最好的教师和医生,一定是那些对人工智能系统或者教育机器深入了解,能运用自如的人。把这些作为辅助手段,水平会越来越高,效果会越来越好。不是谁淘汰谁的问题,机器永远是人的工具。
附语言智能与社会发展论坛 2018 宣言:语言智能与外语教育协同发展
序言
近年来,机器翻译等语言智能技术迅猛发展,并开始在舆论中对人工外语服务形成冲击。一时间,语言智能技术落地、外语教育存废及投入多寡等,成为社会热议的话题,也成为国家教育规划和技术规划中亟需面对的问题。
原则
本论坛相信:
1.语言智能技术的发展将极大地推进人类进步,社会应当张开双臂拥抱语言智能,支持语言智能的发展,适应语言智能的发展,最大限度地从语言智能的发展中获取社会效益,最大限度地避免语言智能对社会产生的副作用。
2.语言和语言学习是人之所以为人、提升智力和大脑功能的关键。语言智能也不是单纯的机器智能,而是以人类语言能力为基础、实现增强与互联的深度人机结合的综合智能行为。语言智能在其发展历程中也离不开语言学的基础支撑。因而在技术发展、专业教育等方面,不应轻视人类语言知识、语言能力的根本作用。
本论坛坚持:
1.作为工具的语言智能技术无法替代外语从业者,但对不掌握智能工具的外语从业者会带来冲击。
2.语言智能发展应以人为本,以公众福祉为目标,应尊重社会伦理和科技伦理,承担起社会责任。
3.外语教育(包括第二语言教育)应与时俱进,将语言智能的挑战作为转型发展的契机。坚持语言教育的工具性、人文性的双重属性,重视语言运用能力、跨文化交际能力和文化包容心的教育,重视语言智能技术的学习与应用,培养不同文化间的穿行者。
倡议
我们需要冷静地、理性地预测机器翻译等语言智能技术的发展未来,科学估量它在翻译事务当中将发挥的作用,有效帮助国家制定符合实际的外语发展规划,帮助外语从业者做好心理准备,主动适应新形势。
本论坛倡议,外语教育面对语言智能时代的冲击和挑战,为自身发展和学生前途计,应当全力适应人机共存的语言生活形态,充分利用语言工具的革命性变化,革新教学范式和人才培养路径,增强受教育者智能工具的使用能力,帮助其过好智能时代的外语生活。
机器翻译等语言智能技术的发展和实践,不应也不可能谋求全面替代人类的外语能力,在公共宣传、科普演示中,语言智能学界和产业界应当实事求是地报告语言智能的发展现实,不夸大语言智能技术的现有性能,不做缺乏科学依据的展望,不能对人类的外语工作造成恐慌,不能对人类的外语事业规划造成形势误判。
语言智能的发展秉承以人为中心的发展观,不断向更深层次与更广范围的人机互助、人机共处前进,使之成为进一步提升人类语言能力和沟通能力、凝聚社群心灵、融会世界知识的工具。语言智能与外语教育协同发展,共同进步,助力人类命运共同体的形成。
呼吁语言智能界、伦理学界及社会有关界别及有识人士,成立“语言智能伦理委员会”,保证语言智能在符合人类伦理的框架内发展,划定语言智能技术应用的道德边界和法律边界。
雷锋网 (公众号:雷锋网) 雷锋网
。