竹间智能翁嘉颀:人机交互技术探索
雷锋网 AI 科技评论按:随着语音识别 ASR 的进步,对话机器人从简单的指令式的语音助手,进化到关键词交互方式,人们能够使用较为完整的句子来表达意图,机器人从中截取关键词判断用户意图。
现阶段利用 NLP 、NLU 技术,以及机器学习方式,慢慢脱离关键词的束缚,可以更聪明的去理解用户意图以做出正确的回应。再下一步是否能脱离一问一答的回应方式?是否机器人能主动的跟人产生互动?没有情绪情感的机器人真的算是智能机器人吗?情绪情感又有哪些可能的应用?
近日,在雷锋网 AI 研习社公开课上,竹间智能 CTO 翁嘉颀分享了人机交互技术探索。公开课回放视频网址: https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin
翁嘉颀 Phantom Weng:竹间智能 CTO,作为 AI 领域的技术专家,他带领团队负责竹间在 AI 领域产品研发与技术规划,领域主要涵盖对话机器人、计算机视觉、金融科技等领域。此前,翁嘉颀在中国大陆及台湾的多个科技类创新企业担任 CTO、首席架构师等职位,带领团队进行 AI 及大数据领域的研究开发。他毕业于台湾大学资讯工程学系,此后就读于纽约州立大学。熟悉算法、编程语言、搜索引擎、网络安全以及邮件安全,使用过的语言超过 35 种。
分享主题: 人机交互技术探索
分享提纲: 情感计算、意图、主题、上下文、中文 NLP 应用、多轮对话、算法与数据的关系
雷锋网 AI 研习社将其分享内容整理如下:
今天讲的主题是人机交互技术探索,我会着重讲这些技术的应用以及怎样解决当前的问题。
人机交互现状
先看一下人机交互目前的现况:第一个,双十一快到了,我在系统推荐了三件 T 恤后,回答「要黑色的」,大家可以看一下图左边智能客服的回答,竟然在介绍黑色的基本定义。第二个例子是与某家知名银行的智能客服的对话。最后这个例子就有点可怕了,这是去年发生的事情,大家可以看下图最右边对话框的对话。
为什么现况是这样的?这是因为大部分人机交互都使用关键词匹配和模板的方式,没有上下文,语料都是从网络上爬来的——根本无法控制质量,怎么清洗基本上都没法使用。
我们再来看更多的例子:
第一个,机器人交互的情商:
第二个,机器人交互的智商:
(关于人机交互现况更多案例的讲解,请回看视频 00:02 : 50 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
使用模板的机器人没有情商,也无法进行多轮对话。Siri 曾在美国做过一个测验,测验结果显示它的智商为 2 岁,其他的机器人也差不多。而对于成年人来说,智商达到 16-18 岁的机器人,才是我们需要的机器人,然而,如何做到这种程度?
公司介绍
在此之前,我先介绍一下竹间智能这家公司。
我们似乎可以发现,目前在人工智能的文本分析和语义理解领域,很多公司的技术人员都是做搜索引擎出身的。
我们公司的 EMOTIBOT 是一个情感机器人,光文字情绪就做了 22 种,人脸表情 9 种,语音情绪 4 种,此外,还做了多模态情感识别。
(关于 EMOTIBOT 的更多介绍,请回看视频 00:08 : 23 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
需要的技术
做到较好的人机交互,需要哪些技术呢?
第一个是上下文理解技术,有三种方式:补全、指代消解和对话主题式补全。
第二个是主题、Speech Act &情感以及 Memory 的运用:
一是利用主题做对话控制;
二是利用 Speech Act &情感;
三是利用 Memory;
第三个是 Contextual graph;
第四个是直接生成。
第五个是场景和多轮对话。
(关于人机交互所需技术的更多讲解,请回看视频 00:11 : 05 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
NLP 重要性
我们再来讲 NLP 的重要性,刚刚所提到的技术有一个自然语言处理平台,能够提供我需要的线索。我们先来看一个 NLP 平台的 Demo。
(关于 NLP 平台的 Demo 演示,请回看视频 00:32: 31 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
而我们底下其实做了大量苦工,做得模块较多,就有更多机会,让各个模块在匹配时能够 Cover 对方的弱点。
那我们如何利用 NLU 的基础信息呢?
(关于 NLU 的模块架构和基础信息的具体讲解,请回看视频 00:37: 30 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
中控中心
然后讲到一个中控中心的问题,这就涉及到刚刚所提到的多轮对话问题。那多轮之间能不能切换?下面是几个例子:
(关于多轮之间的切换的案例讲解,请回看视频 00:41: 00 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
竹间科技经验分享
最后我分享一下竹间科技的实战经验。
一是算法。单一算法在图像识别上的应用表现可能还好,但在文本和语义理解上基本不可能获得好的准确率,下面是其无法解决的一些问题:
我们多模型的构建采用以下方式:
二是语言学家与数据质量。我们在数据标注上非常严谨,花了超过 3 万人/天的人力去做数据表述和检查。在 NLP 的数据专业度方面,我们每年至少投入 1500 万,三年以来,竹间的语言学家都维持庞大的队伍(纯硕士跟博士),目前有近 30 个语言学家。
(关于竹间科技的实战经验的详细分享,请回看视频 00:43:45 处, https://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin )
未来会不会存在这么一个世界:每个人都有一个机器人,机器人会懂你,就像好朋友和闺蜜一样;每家企业也会有机器人,会帮助员工完成订餐等事宜。这是一个理想的状态,虽然现在还有一段距离,但是也有很大的希望,不过我们只有将技术底层做好,才能一步步走到这个理想状态。
以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网 (公众号:雷锋网) AI 研习社社区观看,关注微信公众号:AI 研习社(okweiwu),可获取最新公开课直播时间预告。
。