战胜棋手只是开始,AI 下一步要挑战「翻译官」
编者按: 如果你的朋友圈有一位人工智能行业的创业者,你可能会有些焦虑,因为他可能会隔三差五地转个文章告诉你哪些行业要灭绝了。礼拜二,阿尔法狗「胜天半子」的时候大家也都很慌,网上流出很多文章说这狗已经聪明到让人了,太可怕了。
有那么可怕吗?
目前的人工智能准确地说应该叫深度学习,其智能水平还停留在「幼儿」阶段。就目前来看,人工智能在规则固定的棋牌游戏上超越人类无非是因为计算能力的优势,而在身为人基本的语言能力方面,机器还远远达不到与人类同场竞技的标准。
本文编译自 VentureBeat ,原标题为《Why AI gets the language of games but sucks at translating languages》,略有改动。
正如你在这周 Google DeepMind 的围棋大会上所看到的,机器学习在最近几年里已经深入渗透到了许多的行业中。
然而在不久之前,对它的讨论更多的只是停留在理论层面上,机器学习在生活中的应用仿佛还是科幻小说里的事,但现在,我们看到人工智能已经成功应用于智能汽车,电子游戏、数字营销、虚拟助手、聊天机器人和其他我们生活的方方面面。
(各大公司纷纷推出自家的聊天机器人 Chatbot,来源: Businessofapps )
虽然人工智能已经成功搅乱并改善了许多行业,但在它克服一些障碍之前,我们还没有必要担心会丢掉我们手上的工作。在今年二月的一次翻译比赛中,人类打败了人工智能,但现实一点地说,即时而准确的机器翻译成为现实也只是时间问题了。
游戏的结束
1996 年,IBM 的深蓝计算机首次挑战统治国际象棋十二年之久的世界冠军卡斯帕罗夫,那一次人类赢了。但在 1997 年,深蓝成功打败了卡斯帕罗夫,这次比赛之后,计算机发展得越来越快,人类再也没有机会在国际象棋上胜过计算机。
(卡斯帕罗夫 VS 深蓝计算机,来源: BusinessInsider )
下一个沦陷的棋类运动是围棋。在当时, 这项中国的古老游戏对最先进的计算机来说也太过复杂了——据说围棋中可能存在的下棋路数比人类可见的宇宙中存在的原子数还要多。正因如此,当 DeepMind 的 AlphaGo 人工智能计算机程序在 2016 年 3 月击败了韩国的围棋名将李世石时,整个世界都为之震惊了。
本周,在中国乌镇举办的围棋峰会上,AlphaGo 已经连续两局击败了世界排名第一的中国棋手柯洁,并于今天下午团灭了五人合作的人类棋手。在去年李世石战败后,柯洁曾公开表示自己不可能会输给这台冰冷的机器,然而,在见识到 AlphaGo 超乎寻常的成长速度后,柯洁改口称「人工智能的进步超乎想象」。
在今天的比赛中,AlphaGo 还与人类联手对弈,主办方希望借此探索人工智能除了能够在人类的游戏中击败人类以外,是够还能够帮到人类。
征服语言?
现在,行业的重心已经转向了翻译,语言文字的生产和翻译在很久以前就是机器学习的一大障碍。早在上个世纪 50 年代,IBM 就已经对机器翻译进行了深入的探索与研究,但直到 90 年代,从 Altavista 的翻译工具 Babel Fish 开始,这类翻译工具才进入大众的视野。
然而,机器翻译也有其自身的限制:机器翻译只会使用词典进行字对字的解释,它可以提供文本的翻译,却无法将语义、句法和词法的复杂性考虑在内。
统计机器翻译(SMT)是翻译技术发展的下一阶段。统计机器翻译的原理是通过一个模型将材料中的单词和词组与翻译过的文章比对(尤其是专业翻译),然后挑出最常使用的词。
(统计机器翻译示例,来源: ACL )
从逻辑上来说,机器学习和人工智能将能够掌握语言的复杂性,以往标准的翻译技术在这一点上是没法和深度学习相比的。和人类的大脑一样,机器需要学习在不同的上下文中使用不同的短语和句子,并随着时间的推移进一步生成用户能够理解并与目标语言相关的材料。
应对市场对于精准翻译的需求,Google 推出了神经机器翻译(NMT)。神经机器翻译技术在翻译文本时让机器更关注整个句子而不是其中的一些成分(单词、词组等),通过把这些成分用最自然的方式组合起来,从而得出最佳的翻译结果。
(图片来源: ZME SCIENCE )
当人工智能技术应用到这个过程中时,神经机器翻译就可以从其他已完成的翻译中分析学习它们的结构,学习它们在语序等细微问题上如何做出调整。
还差得远呢
考虑到现在技术进步的惊人速度,一些靠语言和翻译吃饭的人才开始担心神经机器翻译会抢了他们的饭碗也就不足为奇了。但从另一个角度来看,全世界仍有许许多多的人和企业对科技打破语言的障碍、人工智能成为全新的通用语言还是充满期待的。
因此,当世宗大学与韩国国际翻译协会合作,组织人类译员与 Google 全新的神经机器翻译系统(以及韩国本地搜索引擎 Naver 的翻译工具)进行翻译比赛时,人类的感觉是既激动又恐慌的,尤其对译员们来说,这场比赛可能会预告着他们的工作不再有保障了。
(Naver Papago 翻译应用,图片来源: Blogspot )
这场比赛耗时 50 分钟,比赛双方需要翻译两份随机选择的未经翻译过的文本,一份为文学翻译,一份非文学性质。
比赛的结果还是比较让人安心的,无论是韩翻英还是英翻韩,无论是文学性翻译还是非文学文本翻译,人类都以较大的优势打败了基于人工智能的机器翻译。
但也有很多人认为,不同于数学或者棋类游戏,翻译没有一个客观的标准,而最终比赛判定结果的又是人类的评审,所以这其中可能会有不好定夺的主观成分存在。
但是,考虑到评委在判断时只是根据翻译结果是否符合母语使用者的语言习惯,以及是否有明显的语法错误来判定输赢,所以这次比赛的判决应该还是非常公正的。
评委们表示,神经机器翻译系统翻译出的文字有 90% 都有语法上的错误,这些错误不明显,但足以让受过教育的英语母语或韩语母语者感到尴尬。这次人与机器的对抗结束后,许多语言学家和翻译人员都可以松一口气了。
但不可避免的是,随着神经机器翻译系统的进一步发展,技术性的内容,那些有着严格标准和术语使用规范的内容,可能更容易被机器完美地翻译出来,并且不需要太多后期的人工编辑。
然而,文学和营销方面的文本在翻译时就几乎是需要就目标市场和受众的情况进行再创作,这对于人工智能机器翻译而言,毫无疑问仍然是一个艰难的挑战。翻译这种内容需要基于一定的语境和研究,同时也要有一定创作的能力来与目标读者取得共鸣。在翻译和语言学的世界里,机器想要取代人类,还有很长很长的路要走。
头图来源: Android Police