干货丨一文读懂智能语音人机交互产业链及核心技术
什么是智能语音 人机交互 技术?简单说,就是一种以语音为主要信息载体,让机器具有像人一样“能听会说、自然交互、有问必答”能力的综合技术,它涉及自然语言处理、语义分析和理解、知识构建和自学习能力、 大数据 处理和挖掘等前沿技术领域。这种技术既可以作为独立的软件系统运行在用户的计算机和智能手机上,也可以嵌入到具有联网能力的设备中。
一、智能语音人机交互产业发展现状
近几年,随着语音技术的不断发展,人机交互逐渐走入语音时代,进入到智能操作系统时代,手机、平板、可穿戴、智能家居、智能汽车等不断出现,各种业务、软件、应用也迅速普及,而且越来越多应用也开始引入语音功能。 主要体现在:一是技术水平不断提高,特别是语音合成和基础语音识别技术发展较快;二是产业规模持续扩大,带动了家电、汽车、移动互联网等一批相关产业的发展;三是优秀企业大幅涌现, 出现了如Nuance、谷歌、科大讯飞、 捷通华声 等一批优秀的企业 。 除了苹果推出的Siri,谷歌发布的GoogleNow,以及微软推出的Cortana(小娜)以外,亚马逊还大力推广Echo智能音箱,Facebook也宣布推出聊天 机器人 MessengerPlatform,希望建立一个对话式的系统,实现订餐、下单、获取资讯等各种各样的服务。接着,谷歌在今年5月的I/O大会上就发布了GoogleHome智能音箱。 同时,产业发展也存在一些问题:一方面,语音识别技术主要还是用于识别一些命令词汇和固定的语法格式,大规模的语音数据识别技术仍有待提高; 另一方面缺乏成熟的商业模式极大地制约着产业的可持续发展。
二、智能语音人机交互产业链分析
经过多年的发展,智能语音人机交互产业形成了从核心技术研发到知识库提供再到应用、服务的完善的产业链。
(一)核心技术研发
包括 人工智能 机器人厂商、人机交互技术和渠道提供商,以及基础平台支撑和关联技术提供商。 1、人工智能机器人厂商 主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所。 2、人机交互技术或渠道提供商 包括Nuance、科大讯飞、捷通华声、车音网、思必驰等语音技术提供商,以及短信(移动、电信、联通)、QQ等服务提供商。 3、基础平台支撑和关联技术提供商 包括IDC、 云计算 平台、数据挖掘等技术提供商。
(二)知识库提供
主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等。
(三)应用、服务
1、智能电视提供商 包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等,也可以包括费通、盛付通等支付渠道商。 2、智能车载设备提供商 包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。 3、电话呼叫中心 包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。 4、智能移动终端厂商 包括以华为、联想、盛大、中兴等为代表的智能移动终端厂商。 5、智能家居厂商 包括以海尔、典众智能为代表的智能家居厂商。
三、智能语音人机交互产业竞争格局
随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。
(一)智能机器人厂商
智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告指出,截止2011年初,全球大约有36家 智能客服 系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、政府、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。 瑞典的ArtificialSolutions定位于为企业和政府机构开发客服机器人,他们已经成功的为欧洲近几十个政府部门提供客服机器人,从而减轻人工工作压力。 智能客服机器人在国内的发展应用于近几年呈现出了快速增长的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。
(二)语音技术提供商
语音技术提供商纷纷借助这次智能语音人机交互产业发展高潮,不断推出相关产品,提升自己提供智能机器人解决方案的能力。Nuance除了在北美市场拥有自己类似的解决方案Dragongo,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。
(三)搜索厂商
虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这种方式的易用性和效率以及用户体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布GoogleNow,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。
(四)移动客户开发端
Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。 他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。
四、智能语音人机交互关键技术分析
基于语音的智能人机交互是当前人机交互技术的主要表现形式, 语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。
结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:
(一)自然语音处理技术
包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。
(二)语义分析和理解
包括知识表示、本体理论、分领域的语义网络、机器推理等。
(三)知识构建和学习体系
包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。
(四)语音技术
包括语音识别、语音合成和声纹识别等。
(五)整合通信技术
包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
(六)云计算技术
包括海量数据分布式存储、统计和分析技术。
五、智能语音人机交互技术在典型行业的应用
语音交互 方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到智能客服、智能终端等领域,切实深入到人们的生活。
(一)智能客服
智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,能够实现智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。 传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。 在大幅缩减客服成本的同时,能够有效减少人工成本,增强用户体验,从而提升服务的质量和企业创新的品牌形象。
国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。 而在国内,由于企业的信息系统发展相对滞后,人力成本相对较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对比较积极的电信运营商、金融领域已有多家采用了智能客服系统。 随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会进一步显现 。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服可以节约20%的开销,仅移动行业一年就可以节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。
(二)智能终端
以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个快速增长市场。 附:盘点国内外语音交互公司
五、国外语音交互
Nuance 全球最大的语音技术公司,超1000项专利技术,一度雄霸天下。 当然现在依然很牛啦。在中国,有9%的语音识别应用是采用Nuance的核心技术。它和电信、移动、联通、网通都有合作,cctv春晚的呼叫中心也应用此技术。
微软 提到微软在语音交互的布局,不得不说起微软两姐妹,小冰和小娜。小娜Cortana是微软发布的全球第一款个人智能助理。能够了解用户的喜好和习惯,帮助用户进行日程安排、问题回答等。小冰目前已发布第三代,听说读写技能都已解锁,从最初只能单纯的文字对话跨越至纯语音的互动聊天。
谷歌 Google一直致力于投资语音技术,此前收购多家语音识别技术公司及专利。2011年,收购语音通信技术公司SayNow和语音合成技术PhoneticArts。2014年收购SRTechGroup的多项语音识别相关的专利,其中包括“搜索引擎语音界面”和“修改、更新语音识别项目系统”的专利。 今年4月份Google还开放了自己的语音识别API,即Google语音搜索和语音输入的支持技术。GoogleCloudSPeechAPI包括了80多种语言,适用于各种实时语音识别与翻译应用。
苹果 苹果收购过Siri、Novauris、VocalIQ等语音技术公司,且请了不少牛B的人组建基于神经网络算法的语音识别团队。 最近苹果正依靠语音助手Siri构建更大的生态系统,在最新的HomeKit的合作伙伴名单中,除了国内厂商海尔,还有照明厂商飞利浦、科锐(CREE),以及Marvell(美满电子)、Honeywell(霍尼韦尔)等全球顶级制造商。
初创公司VivLabs 提到苹果Siri还容易让人想到,Siri的两位创始人在离开苹果之后,他们另起炉灶,创办了一家名为VivLabs的初创企业,他们准备打造一位智能经过全新升级的助手:Viv,它能够理解复杂句子,在用户对它的使用中自主学习,并且帮助完成事情。这些简直就是iPhone用户当初对Siri的美好想象。
亚马逊 Echo音箱就是一个黑色的小柱子,相比起其他的智能语音助手比如Siri,它实物,不是Siri这样的虚拟语音助手。一年多下来,Echo已经成为了语音控制智能家居的入口。
二、国内语音交互
科大讯飞 成立于1999年底,依靠中科大的语音处理技术以及国家的大力扶持,很快就走上了正轨,是目前国内最有影响力的语音技术公司,08年的时候就已经挂牌上市了,目前市值接近500亿。
中科信利 中科信利是国内第一家具有大规模商用案例的语音技术公司,是专业的语音核心技术和解决方案提供商。公司专注于语音识别和音频信号处理相关技术和产品的研发,具有国际一流水平的语音识别/处理引擎、语音云系统和语音分析应用产品,产品涵盖互联网、电信平台、广电网、教育、音乐检索以及嵌入式终端等多个领域,是拥有全部核心技术自主知识产权。
捷通华声 捷通华声科技股份有限公司成立于2000年10月,是一家专注于智能语音、智能图像、语义理解等人工智能技术的研究与应用,全面发展人工智能云服务的高新技术企业。2001年,捷通华声推出代表国内最高水平的中文语音合成技术。2014年,灵云平台面向产业全面开放,并以“云+端”方式,为产业界提供语音合成(TTS)、语音识别(ASR)、声纹识别(VPR)、手写识别(HWR)、光学字符识别(OCR)、指纹识别(FPR)、机器翻译(MT)、自然语言理解(NLU)等全方位人工智能能力。
百度 语音交互其实很早就被百度确立为战略方向,2010年的时候百度就与中科院声学所合作研发语音识别技术,但是没搞好。 直到14年,百度请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,才得以咸鱼翻身。 到目前为止,已斩获了近13%的市场份额,技术实力可与科大讯飞相提并论。 除了技术外,我们还看到百度积极地布局应用端,CarLife、MyCar以及在上个月CES上推出的CoDriver都是百度在车联网语音交互的生态布局。还有百度之前推出的度秘,之前也在KFC中实现了语音点餐这一功能。
7月16日,奇点•极客公园创新者峰会上,王小川表示,目前搜狗一天有1.4亿的语音识别量,准确度超过97%,有7%的用户会使用语音识别。 目前搜狗语音的技术已经不仅仅能够识别语音,更重要的是可以通过完全不依靠双手进行文字的修改。 搜狗输入法在语义理解方面的大数据积累、搜狗本身就在做的地图,再加上目前由搜狗自主开发的语音交互技术,这3者深度结合,在车联网应用领域的确也很具优势的。 思必驰 思必驰初创于07年,由剑桥大学团队创立于英国剑桥高新区,同科大讯飞一样,思必驰是国内为数不多的拥有全套语音类知识产权的公司。在语音识别、语音合成、语义理解、声纹识别、对话管理、音频分析等方面均有深厚技术积累。
目前思必驰把语音相关技术整合成AIOS人机对话操作系统,作为安卓系统之上的一层标准接口,提供给硬件合作伙伴。针对不同场景,AIOS又分成了ForCar,ForHome,ForRobot等版本,针对车载、家居、机器人等产品做垂直领域下的对话式交互。在15年年底,思必驰还获得了新一轮近2亿人民币的投资。
出门问问 2012年成立,至今已累计融资7500万美金。现有投资方包括红杉资本、真格基金,SIG海纳亚洲、圆美光电、及歌尔声学,最近还拿了Google投资的C轮融资。 出门问问基于语音识别、语义识别、垂直搜索引擎、语音合成以及智能推送几项自主研发的核心技术,已推出了不少产品。有Ticwear(语音操控的可穿戴设备)、魔法小问(语音操控,提供各类生活服务)、开车问问(智能语音车载APP)以及出门问问智能语音助手,语音识别比较红火的几个应用场景基本都有铺路。
云知声 云知声成立于2012年,主要团队来自于盛大研究院。 语音识别技术更多源自于中科院自动化所。其语音识别技术有一定的独到之处,有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧,B轮融资达到3亿人民币,主要瞄准智能家居市场,现在也有智能车载解决方案。
哦啦语音于2013年初成立,是威盛电子内部孵化的创业项目。拥有在中文自然语言理解、语音识别、语音控制和语音交互系统等方面的20多项自主专利。目前已应用在智能家居、智能车载、可穿戴设备、语义和交互API服务、智能会议系统、手机语音助手几个方面。他们家最大的特色,是对于中文语义的理解,针对用户各种问题可以给出生动、活泼、幽默、精确的回答。