云知声发布技术引擎3.0版本,用一个车机Demo秀了智力
更加自然的语音交互是当下的技术关注重点。研究人员不仅要让机器听清人类语言,听懂话中的含义,而且还要让人与机器间的对话更加接近人类会话,不再硬邦邦。
云知声举办的“认知世界、更强智能”技术引擎升级分享会上,CEO黄伟宣布了云知声语音交互的最新进展——人工智能引擎升级到了3.0版本。云知声高级研发总监刘升平博士在展示新版引擎时,带来了一个更智能的语音交互车机样本。
云知声CEO黄伟
两个尝试:“无监督式学习”和“语用计算”
人类的自然语言具有复杂性,深度学习恰好适合解决这类复杂文本。根据刘升平的介绍,3.0之前的版本更多使用的仍然是监督式学习。需要使用人工标注的数据供机器学习、训练。而3.0版本已经开始使用无监督式学习的算法,可以使用大量未经过人工标注的海量数据来训练机器。
除此之外,刘升平认为,3.0版本最大突破是可以在整个感知的框架中,融入了 语用计算 。
简单来说,正常人交流时会考虑语境,除了听对方说什么,也会关注说话人身份,说话时所处的环境,以及交谈上下文,双方都默认知道的背景知识等等。语用理解就是以语境为中心来理解对话内容。
3.0版考虑的语境如上图所示,主要包括物理、言语、知识、环境语境几大类,对语音交谈中需要涉及的语境信息进行了整理。然后在机器学习算法上,云知声认为使用Seq2Seq序列生成的模型可以融入语境信息。
这样以语境为中心的理解方法更符合日常交流习惯。比如可以使对话更加个性化,对不同用户、男女老少给出不同应答。另外语境会影响对话中的一致性。比如现在一些语音对话中会出现上下文中性别认知错乱的情况,原因就在于把很多不同性别人的语料放在一起训练机器,但机器没有考虑语境理解,因而与人“说话”时缺乏一致性。
目前云知声整理汇总了语音交互时要考虑的语用信息,从样机展示来看,产品可以简单支持多轮对话,未来将更多信息的融入和算法方面的突破,是云知声要持续的跟进的目标。
用后装模式把握数据资源
在产品层面,云知声的语音功能也是采用的“本地+云端”方案,包括以下三块:
AI芯,是一块打包麦克风阵列的芯片,目前主要用在智能家居领域,装进原本没有智能组件的家电产品中,其中芯片为低功耗芯片,100兆主频,几百K内存,可以在这样的芯片上完成语音唤醒和识别。
AIUI,汽车类产品多数使用的就是AIUI,类似提供语音SDK,打通语音与应用间接口,让语音调用不同功能。
AI Service,云端服务。因为大数据所需的高性能运算,除了本地处理之外,会把深度学习和语用理解放到云端。
因此,现场展示的测试Demo据说有望在月底面世,等待云端后台升级后,就能在不改动本地设备的前提下,利用“云+端”的模式,支援终端提供更加智能的语音交互。
在这过程中,云知声需要解决深度学习依赖的两个关键因素: 高性能处理器和大数据 。
在高性能处理器方面,云知声基于谷歌Core OS,建立了大规模通用型CPU集群。所谓通用型,就是保证语音识别、云处理、深度学习、普通统计学习都在一个集群完成。整个集群可以在晚上线上服务空闲时做训练,白天忙的时候做线上服务,线上线下打通,提高集群利用效率。
不过在刘升平看来,目前不少无监督式深度算法已经开源,强大的计算能力也可以通过购买获得, 最大的影响因素在于买不到也学不到数据 。
考虑时间和资金成本,云知声在汽车领域的商业模式选择了后装。在CEO黄伟看来,后装与前装相比的短周期出货,能为公司带来更多的用户量,另一个好处就是能在短期带来大量的有效数据。
“前装项目一个车型差不多能卖5万台。云知声后装出货量达到了150万台,并且今年还有计划再增加250台设备。” 当然他也坦言用一个引擎切入后装领域面临的挑战,比如如何面临后装产品中不合规设备时,也能提共非常好的用户体验。
除了在汽车领域收集数据之外,云知声正要推动一个名叫Link Open Data的开放数据联盟,通过与一些高校合作,把公司已经建立的知识图谱放到网上公开。这个项目的意义是,让关系落实到数据层面,由不同参与者共同丰富数据库,未来在查询时可以直接调用关联数据,效率可以更优。
关于人工智能的未来
活动现场,360首席科学家颜水成,中科院智能信息处理重点实验室常务副主任山世光,云知声云知声高级研发总监刘升平还就人工智能的话题进行了一个圆桌讨论,《机器之心》创始人赵云峰担任主持。车云菌将核心内容整理附上。
Q:深度学习的发展趋势和研究进展如何?
颜水成:深度学习有三个重要的元素:大规模计算的平台,机器学习算法,大数据。近年陆续出现了包括GoogleNet在内的几个比较好的模型。
但是我们从互联网获取的有标签的数据还是九牛一毛。 未来怎么运用没有标签的数据,用比较聪明的方法提高性能是关键。
一种是无监督式学习,用标注少量标签但是数量巨大的数据来训练机器。还有一种弱监督式学习,网上有些数据看上去没有标注,但是提供了隐式标签,比如用户已经标记了一些tag,虽然不一定准确,但是这些数据可以用来做预训练。
个人比较喜欢另一种方式——自学习。以学习辨认一匹马为例,让机器像人一样逐步自主积累马的数据。人一开始都先从书上看一些马的照片,然后到动物园看到真马会认真观察,积累很多马的信息。后来看到一些特殊的马,通过自我探索的功能慢慢增强马的模型。最后下次看到马就能认识。
无监督式学习、弱监督学习、自学习是下一步可以探索的方向。
山世光:我更倾向human like的学习。我们在训练计算机时,对它太苛刻。包括小孩学习哪里是眼睛、耳朵,也要学很久,人学习也是很难的,在认知上要花很长时间。 训练机器的时候,现在可能一股脑儿把一千万的数据都给它,实际上可以有一个从简单到复杂的过程。
另外我们现在模型设计好后,就是不变的。要落地的话,深度学习不仅要学参数,也要去学结构。
语境对感知、认知来说都很重要。对一个东西的理解和人的过去经历相关,不同人对同一件事看法是不同的。对计算机来说有个矛盾的地方:我们想要通用智能,但是又希望交互是个性化的,个性化和智能是有很大关系的,没有个性化智能会大打折扣。
另一个相关的是多模态。如果人小时候眼睛就看不见,他的学习过程会非常缓慢,不同感官会相互验证。很多个不同模态是同步发展的,而不是视觉只做视觉,听觉只做听觉。 深度学习到来,让不少人做不同技术开始关注其他人,多模态会促进技术快速进步。
刘升平:从我的角度来说关注的是知识这块,通用智能主要是常识。比如我没有带手表,现在我没有办法告诉你时间,手表是人看时间的常识。这个学术界做了很多年,我们做了很多的数据库,现在还是走不通。建立了深度的学习之后,有没有可能用深度学习和知识的结合起来,让计算机学到常识和利用常识,这是一个非常重要的话题。
Q:国内外人工智能学术和产业上的差距在哪?
颜水成:在图像领域差别已经很小了。一些前沿方向在国内起步较晚,国人创造能力会弱一些,当一个方向起来后,华人可以很好的运用并解决问题,甚至能把技术做得更好。但是在发掘新价值点上,国人有点弱。
山世光:不太擅长引领问题不是中国人的特点,而是因为我们积累不够。中国科技史,计算机史本身比较短。一个领域赶超别人,需要10年跟随一个人,然后找到自己擅长的方向,量上来后,渐渐开始发现并引领问题。
目前的问题是:我们容易一窝蜂。现在大家一窝蜂都在做神经网络。 我个人认为深度学习适合做感知智能,但不确定是不是一定适合认知智能和后面的通用智能。 因为感知智能是大数据和归纳法,认知智能更多是演绎法,是从一条规则出来变成很多东西。所以使用深度学习这样的大数据归纳未必合适。 如果所有人一窝蜂做深度学习,下个阶段我们可能又要落后了。
Q:认知智能发展过程,我们面临的困难和障碍什么?
刘升平:最大的的障碍在资源开放,国内数据没有共享。数据的不开放性阻碍中文认知障碍。国内一些学者研究人员不做中文的语音交互,因为做了不被承认。只有在国外数据集上做出来,并与人对比,才能受到认可。
山世光:第一是开放源代码。当越来越多人掌握基础,整个技术和行业才能快速发展。这是一种心理上的思想和障碍。第二,领域内缺大牛,缺乏长期耕耘坚持不懈的人。
颜水成:数据不愿分享的根源是华人文化。以犹太人发现一个地方开加油站容易赚钱,另一个犹太人在加油站旁开个超市,第三个犹太人在加油站边开了一个旅馆。国人发现加油站赚钱,就都去开加油站,而不会想着怎么从不同角度建立更完全的生态系统,而是想怎么成为老大。大家在双赢协作时,利益不是相加,而是可以获得乘以好多倍的前景。
Q:人工智能领域,国内不同机构间如何合作?
山世光:学术界这几年比以前开放很多。单纯发布paper追随的人不那么多了,贡献源码可以获得更多追随者和名声,这么说虽然功利,但是大家也意识到开放数据带来的贡献。学术界和工业界合作,差异很大。有的公司愿意向合作者开源脱敏数据,也有公司对数据依然保守。
刘升平:未来云知声会有个Link Open Data项目,会把知识图谱开放出来供高校使用。
颜水成: 国家层面可以很好促进数据共享,这样高科技公司间就不是数据PK,而是算法上的PK。 一个现象,学术界因为没有数据,渐渐跟不上工业界。国家层面做数据等工作,企业学界更多解决技术问题。
Q:对最近热门的Bot计算平台(比如微软小冰)有什么看法?
颜水成:这个技术让我想到的是Context,上下文。 同样一问一答,想把语境加进去,想用深度学习,目前最主要的是数据还是不够。我认为 Context上不一定要放到深度学习模型中去,可能有其他的方法。系统离实际使用还有很大的距离,我们还有很多是可以做。
山世光:我认为上下文Context和语用理解,深度学习可以做。我们只考虑了单一的深度学习模型。如果类比人,其实人处理需要一条通路,但有很多周边的神经细胞会对处理产生影响。上下文、外在信号会改变调制神经元。
颜水成:最大的问题,原来文本有个space,带入语境space变更大,还是需要更多data。还是data层面影响到。
颜水成:您是指全网训练,对数据要求是组合爆炸。这个在目前确实是不可能的。也许可以在一定场景下,特定的场景下找到一些外来信号,特定信号调整神经网络的特定行为,不同神经网络会产生不同效果。
刘升平:控制设备为什么要聊天。因为人性使然。我认为 聊天是一个通用入口,做操控也好,做问答也好,聊天是一个的粘结剂 。用深度学习框架,把语用融入,有可能做成拟人的系统。
原文链接: http://www.cheyun.com/content/11668
本文为车云网原创文章,欢迎关注cheyun.com,微信添加“cheyunwang”或“车云”订阅公共帐号。
投稿!合作!提问!每日早报!活动直播!结交大咖!只需扫描下方二维码,即可添加车云个人微信号“车云菌”为好友,更多精彩内容不容错过。