中科院自动化所研究员宗成庆:浅谈深度学习方法与自然语言处理
由枣庄市人民政府主办的第四届山东省互联网大会在枣庄市会展中心开幕,亿欧承办了 人工智能 专场,分享嘉宾包括中科院-自动化所研究员-宗成庆教授、亿欧-联合创始人-王彬、百度- 云计算 事业部总监-闫东、中科汇联-董事长-游世学、翼菲自动化-研发总监-孙同亮、好买衣-联合创始人-谭宏冰、云从科技-联合创始人兼CEO-姚志强、英飞尼迪-山东基金总经理-丁晓波、博云视觉-创始人-陈杰。
宗成庆,1998年5月至2000年4月在中国科学院自动化研究所从事博士后研究,2000年4月博士后出站后留在自动化所模式识别国家重点实验室工作至今。国际计算语言学委员会委员,亚洲 自然语言处理 联合会副主席,中国中文信息学会副理事长,中国人工智能学会理事。目前担任学术期刊 ACM TALLIP 副主编、《自动化学报》副主编和 IEEE Intelligent Systems编委等。曾任国际一流学术会议ACL2015程序委员会主席等若干学术职务。
以下是宗成庆的演讲速录(有部分调整和删减):
我们在做什么
据国家互联网中心2014年统计,中国网民的人数已经达到6.32亿。现在已经远远超过这个数据,并且每年都以非常快的比例在上升。
大家打开网络的时候,看到的图片、文本、flash、广告,实际上都是文本。据互联网中心的统计,87.8%的内容是文本,包括短信、微信、微博,偶尔也会有图片,也会有声音文件。
在这样的文本中,计算机能不能告诉用户你在做什么说什么? 比如两个人在聊天,你用微信,看完这段微信之后就知道他们在说什么,但是你能不能让计算机告诉你这两个人在说什么?这是一家什么样的公司?公司的状况怎么样?其中穿黑衣服这个人的情绪怎么样?红衣服的人有什么样的建议?当你发布一款新产品的时候,放到市场上,用不了几天网上就有大量的评论,有人高兴,有人不高兴,有人表扬,有人在骂你。你怎么知道对这款产品用户的反应是什么,多少人喜欢,多少人批评,喜欢的是什么,骂的是什么?什么样的年龄段喜欢,什么样的年龄段反对?什么区域的人喜欢,什么区域的人反对?这些东西你都可以通过用户的评论来发现,但是这些信息是怎么来的?
我们国家正在推行一带一路战略,一带一路是古丝绸之路和海上丝绸之路,这两条线涉及64个国家,50多种语言,44亿人口,占全世界绝大多数人口。对这些沿线上的国家和区域用户,如果不解决语言障碍问题,怎么进行互联互通?怎么进行贸易往来?一个人可以讲自己的母语,也可以讲英语,但是大多数人不能讲更多的语言,而且很多语言我们叫做小语种。
再看国家西部地区,新疆占了全中国面积六分之一左右,西藏大概九分之一,再加上内蒙,包括东边朝鲜、韩国等等,还有东南亚这一圈,这是一个非常多语言的区域。除了蒙古和新疆地区、西藏地区属于中国少数民族以外,其他的东盟,包括西边的一些国家,都在使用自己的语言。他们对中国形成一个包围的形式,每天可以从大量的通讯当中获取到各种各样的信息,很多东西是不利于我们国家安全的。对这些信息你怎么去分析,如果连看都看不懂,根本就谈不上分析。
针对这样一些问题, 我们就要做 翻译 。 大家已经看到的有五个翻译器:百度翻译器、网易云的翻译器等等。但是很多时候使用的并不满意,因为里面太多的问题没有做好,不仅仅是他们没做好,全世界都没有做好。还有信息自动抽取的问题,这么多用户在上面同时发他们所关注的内容,但是你作为第三方,作为局外人,怎么知道他们在聊一些什么事? 还有 自动文摘的文件,每天大量的文件发给我,根本看不过来,很多东西我也不感兴趣。 如何让机器自动的给我一些最重要的信息?这些问题所处理的对象都是文本,从文本里面找东西,从文本里面挖掘东西,这项技术我们叫做自然语言处理,这就是我们在做的事情。
我们用什么样的方法在做
人工智能其实早在80年代就有一段时间很热,但是直到90年代,谁都不敢说要做人工智能。这些年他又热了起来,有一个标志性的事件:2016年AlphaGo战胜李世石。这件事情告诉我们人工智能到了再度崛起的合适的时间和机遇。在这里面我们要关注文本处理到底面临着什么样的挑战?
我们看一下语言里面到底有一些什么样的问题,是我们没有办法解决的。
很多背景知识和常识性知识是隐含的。比如说小学算术兔子和鸡的问题,上面看38个头,下面98只脚,这个小学生会算,但是机器如何知道鸡有两只脚,兔子有四只脚?很多常识是隐含的,是在语义和概念的层面上进行的表示、处理和变换。很多人有疑问,为什么讯飞语音做的好,但是翻译做的不好?语音是一个信号问题,但是语言和翻译并不是一个层面的问题。这些对人来说比较容易的事情,对机器来却并不容易。
下面看我们用什么样的方法来解决这个问题?
首先我们给一个粗略的大框架,也是目前大家普遍采用的一种方法——基于 大数据 的自然语言处理方法。全世界互联网有80%的内容都是文本,网页自然是一个大数据,我们称之为文本大数据。你可以收集大量的样本,也可以做各种各样的标注和任务需求。你根据这些数据标注的样本,写出自己的数学模型,调整相关参数,对这个模型不断的优化,通过开发集,来完成处理任务。
传统的翻译方法只需要做三部分工作:第一部分计算语言模型的概率,第二部分计算翻译模型的概率,第三构造一个解码器,快速的从众多侯选当中选出概率最大的一门语言送出去。分别计算这三个的候选概率,通过训练数据,调出这些概率参数,这样的过程我们称为参数调试。
深度学习 方法和传统翻译方法不太一样。它的做法是这样的:先对原语言词构建一个词向量,寻找一个最优解的优化目标函数。然后对每一个向量进行变化,根据当前的向量,来预测下一个向量是什么,一层一层的变换,通过变换后的向量,来对应英文、译文。这样一层一层的过去,就是所谓的深度学习。变换的层数越多,深度越深。百度基本都是采用这样的计算方法做的,谷歌100多种语言有33种是采用这种方法做的。
这两种方法的区别在哪里?
深度学习需要足够多的序列语言,从而得到比较满意的结果,但是如果语言序列较少,比如汉语和维吾尔语,便只能用传统的翻译方法。传统翻译方法虽然翻译的不是太好,但是可以通过加字、加短语,来进行优化。这是国际上流行的翻译方法。
但是,这样需要大规模的双语对照的平行语料,靠人来找根本找不到,人的效率是非常低的,这就需要从网上自动获取。
另外一个问题是分类问题。我们现在的做法是,把所有的文本通过一些空间向量来表示,从这些文本里面提取出一些比较重要的词汇,我们叫实词。通过这些相关的字标来标识文本。
回头看一下 沃森问答系统 。这个实际很简单,只是自然语言和自动搜索。一个问题来了之后,把他做一个简单的剖析,把问题分解成几个小问题,然后对每一个小问题做一些假设的答案。把一些不可能的情况过滤掉,之后再把整个的问题合成起来,最后做一下排序,把答案送出来。整个过程需要一个非常庞大的知识库做支撑,这也是目前大家流行的,包括谷歌、百度。很多大公司都在做知识托管,因为你没有这样一个庞大的知识库做支撑,到哪里查?到哪里找侯选?因此它是一个简单的自然语言处理加上搜索的问题,中间用了歧义消解的方法。
我们做的事情,是针对国家特定需求做的多语言的翻译,主要面向少数民族语言和汉语的翻译。特别是新疆、西藏,包括内蒙、哈萨克斯坦,这对我们国家安全是非常重要的。
本文作者,亿欧专栏作者;转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。