深研语音识别领域“暗”数据,深思考开启多轮人机交互与深度语义理解新纪元

猎云网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

今天,2017年度CEO峰会暨猎云网创投颁奖盛典在北京丽都皇冠假日酒店隆重举行,深思考人工智能 CEO杨志明受邀出席,做了主题为《理解领域“暗”数据,开启多轮人机交互与深度语义理解的新纪元》的演讲分享。

杨志明主要分享的是深思考人工智能公司目前的布局与技术。深思考主要布局在语音识别技术中的非结构化数据和语义理解,用机器的学习模型去理解非结构化数据,这样的话效率会大大提高。杨志明认为现实中大量的语义是非结构化数据,人机交互重要的突破是对非结构化数据的理解。

除了对非结构化的数据的布局,深思考也重点研发情感计算。杨志明表示人机交互情感非常重要,尤其是在医疗大健康领域,患者急需要情感安慰。深思考基于机器学习意图关联和预测,主动启发式学习,分析人机交互里面的场景,用机器学习方法建立关联。深思考不仅可以进行多场景多轮式语义交互,还可以脱离云端进行离线交互。

深研语音识别领域“暗”数据,深思考开启多轮人机交互与深度语义理解新纪元

关于深思考人机交互的特点,杨志明表示有两点:一个是在多种场景切换的情况中,深思考的AI模型可以理解上下文隐含的意义;另一个是语用计算—可以将个性化用户与用户所处的即时情景相关联。

本次猎云网峰会以《赋能万物 智领未来》为主题,由猎云网主办,锐视角、猎云资本、AI星球协办,分为28日—29日两天,主要以优秀创业者、投资人表彰以及创投嘉宾干货分享为主。近百位知名投资机构大咖,独角兽创始人、创业风云人物、投资人与创业者就人工智能、共享经济、新零售方向的多个议题展开探讨,共同寻找创业新商机、把脉未来新方向。

以下是杨志明的演讲实录,猎云网(微信: ilieyun
)整理删改:

各位嘉宾、各位老师大家上午好!非常荣幸跟大家分享一下我们深思考人工智能现在的布局、研究的几块技术。我的演讲题目是《理解领域暗数据,开启多轮人机交互与深度语义理解的新纪元》。

语音识别,比如说音箱、手机助手等等,语音识别技术很重要,如何做到深度的语义理解?什么叫深度的语义理解?第一,比如我们平常生活中都是大白话,肚子咕咕叫,可能是肚子饿了,我们会预测大白话后面意思。第二,我们说大白话在特定的场景,比如说健康问诊、出行,比如说我找美食的时候分不同的场景。整个人机交互的后端,AI支持的是什么?我们重点布局在非结构化数据。

大家可以看一下,现实生活中更多是大白话或者非结构化的话语。比如说每一篇医生写的专业文档是非结构化的,长篇大论从第一个字到最后一个字。比如说我们对患者对自己身体健康状况的描述,也是非结构化的,我身体不舒服,我肚子疼等等。现实中大量的语义是非结构化数据,人机交互重要的突破是对非结构化数据的理解,为什么呢?我刚才说了大量的数据是非结构化的,很多我们的同行或者友商,在人机交互的时候,采用知识图谱,我觉得这是一种方式,我们深思考人工智能重点研发的是暗数据,所谓非结构化数据的理解。用机器的学习模型去理解非结构化数据,这样的话效率会大大提高。

举一个实际案例,我们客户给我们大概一万条的医疗问诊数据,过了两天,客户又给我们一万条,客户问这个后面给的一万多条训练数据是不是花很长时间?我说只花五分钟,他很惊讶,他说不需要建立人工梳理?我说不需要,我们把非结构化的数据,可以转化为人机交互的语料。

人机交互中,机器给出的答案基于机器学习,而不是花大量时间整理知识图谱,这点我们有突破之后,大量做领域迁移或者机器学习的语料。我们把在线大健康里面问诊数据全部用机器学习模型做了训练,不用成上千上万条数据全部整理成知识图谱,就能解决海量机器学习的问题。

第二个,深思考人机交互非常突出的特色是什么?我们能够实现连续上下文的交互。在多种场景切换之下,我们AI模型可以理解上下文隐含的意义,包括上下文的场景。我们能够自动识别这一轮对话和下一轮对话,某一句单独的话对应是哪个场景,这也是多轮人机交互评测,我们在SMP2017-ECDT 人机多轮交互评测是全国冠军,评测有 300多家企业和学术界参与,这也表示我们多轮人机交互技术非常突出。我们在交互布局语义理解,很多交互机器人是固定的问题和固定的答案。我们根据用户个性化不同有不同的答案,这是第一。第二,我们跟场景相关联,我举个很简单的例子,我跟机器人说,你好,如果在上午,他会说上午好,你要不要听一下新闻?如果我说下午好,机器人回答,下午好,你是不是有点疲倦,建议你来杯咖啡等等,跟用户个性化和当时所处的环境相关联的,我们称作语用计算。

还有重点研发情感计算。我们认为人机交互情感是非常重要的一步,在医疗大健康领域问诊非常关键,患者得了疾病他心里是非常悲伤或者很不高兴,大量需要情感安慰。

我们基于机器学习意图关联和预测,主动启发式学习。我们分析人机交互里面的场景,某些场景用机器学习方法建立关联,很自然,我们会发现你在某些时刻是倾向于做某些事情。

比如说你深更半夜拿起机器人交互,你说给我首歌或者来个相声,机器人会提醒用户,你这么晚还没睡觉是不是失眠?我要不要给你来首轻柔的歌,有关联和启发式的交互,而不是固定问题和固定答案的交互。

我给大家介绍一下我们公司,我们所有核心团队全部来自中科院自动化所、软件所和微电子所。我们一开始重点布局这几块。我们认为人机交互最重要的是多轮人机交互,这里除了语义理解,我们认为人机交互会涉及到多场景,尤其在大健康领域、医疗问诊领域,用AI理解所谓非结构化数据,包括医疗图片,比如皮肤图片,目前做了两轮筛查图片,我们跟顶级医院合作。

另外一块,如果提供非常好的人机交互,除了刚才说的场景,底层需要AI加速,在某些特定场景,比如在离线场景下,对交互性能非常高的情况下,我们不完全依赖于云端的交互,比如说在医疗场景下,没法到云端,我们就可以利用自己做的终端,基于ARGUS DPU,把我们的人机交互在终端运行,图象识别和语义理解在终端去运行,而不完全依赖于DPU。

人机交互是这波人工智能热潮里面重要的一块,怎么使得AI更贴近人性,更使得用户个性化,更理解用户,我们有深入的研究。我们研究出三代机器人,即将推出的四代机器人也是完全基于深度强化学习来做的,训练我们的机器像人一样多轮上下文场景识别和会话,给出一站式的建议。深思考在人机交互,我们从单轮到多轮,然后从多轮到一站式,整个哲学上回归,其实机器能够基于用户个性化一站式给出非常好的建议。

随意打赏

汽车人机交互人机交互指南语音识别领域
提交建议
微信扫一扫,分享给好友吧。