人机大战再上演,最专业的速记员也不敌搜狗对答机器人汪仔
作为人工智能技术发展的完美体现,“人机大战”近年来一直是备受各界关注的热点。继昨天柯洁九段和ALphaGo结束精彩的人机围棋之战后,今日,由机器之心主办的全球智能峰会(GMIS 2017)第二天,也特别设立了“人机大战”环节,搜狗问答机器人“汪仔”将同人类战队展开五轮角逐,且每一项挑战都是语音识别领域内最难攻克的技术点。
根据比赛规则,现场的五轮对决内容涉及普通文章、专业论文、语码混合、粤语普通话和绕口令。双方需在规定的时间内根据语音完成速记,准确度高的一方为胜。比赛计时规则为题目开始放送至结束后25秒,评判标准为CMU开源工具SCLITE。
在第一轮的“普通文章”环节,由于现场播放的语音清晰洪亮,旺仔很快超越了速记员,且准确率也相对较高,只是在个别词语上有同音词的出现。
第二轮为“专业论文”部分,虽然仍由专业的普通话进行播报,但由于这部分涉及较多艰深晦涩的专业名词,因此难度也在不断加大。而这部分旺仔无论是从速度还是准确率上也较领先速记员。
在第三轮的“语码混合”比赛中,语音播放中夹杂了中、英文,且还有部分专业名词的英文缩写。显然,这一环节中,人类速记员尽管在速度上较慢,但准确率相对偏高,搜狗汪仔的表现似乎更像是在“胡言乱语”,例如,将“Jackie嘞?昨天跟你说的那个test run了没有?”听写成,“给a。昨天跟你说那个太失望了没有?”,将“你最新爬下来的那个dataset到现在还没有clean”听写成,“你最精心扒下来,那个德赛到现在还没有令看上去”。
为了加大难度,第四轮为“粤语普通话”,汪仔的表现显然也“不在状态”,例如将“你会不会说国语,对啊,我就在说国语啊。那那那那几点钟出出来见啊?”听写成“你不说过雨对啊,我就是说过于啦啦啦啦,几点钟出来?”
第五轮的“绕口令”,播报速度较快,且在具体语义上会有相对误差,但名词相对简单且重复。这一轮汪仔明显从速度和准确率上都较速记员领先。五轮结束后,评判工具最后认定速记员1:4负搜狗汪仔机器人。
从五轮对决可以发现,在语音清晰且现场环节良好的条件下,依靠语音识别、图像识别、语音合成和自然语言理解与计算实现答题和思考的人工智能机器的表现会优于人类,但面对口音、方言时,准确率就会低很多,尽管速度上依然比人类速记员更快。
尽管目前,语音识别被视为人机交互的下一个入口,苹果、亚马逊、谷歌、微软、三星、科大讯飞、百度和华为等巨头纷纷通过并购与自研推出自己的语音产品,加大市场布局。但事实上,基于用户特定场景需求的逻辑理解能力以及成熟可靠的商业模式,依然距离遥远。
目前业内普遍宣称的97%识别准确率,更多的是在安静的室内并近距离靠近麦克风的场合。但在噪音或者远场识别环境下,错误率是近场识别错误率的近两倍。
。例如其快速自适应的方法(unsupervised adaptation),比如面对口音、方言,机器或许一开始听不懂,但几句之后就能听懂了。这种方法在很多情况下能够提升语音识别率。
。正如亚马逊Alexa负责人Toni Reid所说,“目前用户最大的期待,同时也是人机对话中存在的最大问题:语境。比如,我和你面对面交谈,很多视觉线索会告诉我你是否真的听懂了我在说什么,或者是否赞同我的观点。但是在人机对话场景下,这种视觉线索是缺失的”。从AI角度来说,补齐缺失的语境,是解决人机交互体验的当务之急。
此外,现有的语音识别技术还缺乏逻辑推理与表达因果关系的能力。即使是行业巨头的人工智能语音助理,基本定位也只是在信息检索、资讯收集等非常初级简单的工作,例如它们能够回答今天天气怎么样,但面对稍微复杂的问题,附近的麦当劳是否可以用微信支付等就无能为力了。
显然,无法根据逻辑进行多层次推演,就无法承担起更深层的服务。这也是我们看到即使是巨头研发的聊天机器人,都只能做到几轮对话的原因。