百度开放大批语音黑科技,人机交互大变革将至
11月22日,百度语音开放平台三周年庆活动在京举办,百度宣布将向公众开放四个全新的语音技术接口。据百度公司首席科学家吴恩达介绍,这四项语音技术分别为情感合成、远场方案、唤醒二期技术和长语音方案,即日起这几项旨在提升语音交互用户体验和推动语音交互落地普及的技术,将免费开放给用户和开发者共享。
智能语音交互,前景与问题交织
智能语音交互作为一个依仗新兴技术而诞生发展的行业,不仅有着充足的发展潜力,更随着近年相关技术的快速迭代迎来了爆发期。
中国工信部的报告指出,2016年全球智能语音产业规模为82.3亿美元,近五年复合增长率高达35.1%,而根据Research and Markets 发布的调查数据显示,2020年全球智能语音市场规模预计将达到191.7亿美元。因此对于科技巨头来说,这一领域已经成为兵家必争之地。
事实上国内外诸多科技巨头近年来都已意识到了语音交互行业的发展潜力,并纷纷在这一领域大展拳脚。亚马逊旗下家庭智能语音交互产品Amazon Echo就帮助其占据了智能家居语音交互领域的半壁江山,苹果的Sir更以问答交互形式开启了语音交互新世界的大门,除此之外,微软、谷歌、Facebook、百度、讯飞等国内外巨头都早已在这一领域争相竞逐。
但在巨头纷纷布局的今天,智能语音行业仍然存在不少问题。语音交互产品在识别快速话语时,往往或难以识别或频频出错,而这与开发者语音识别技术的不到位有着直接关系。此外,语音交互助手目前的应用场景仍然谈不上宽泛,当前一些已知的应用场景不要说智能化,甚至给人一种生搬硬造应用场景的感觉。
事实上,不同于移动互联网技术的全面开花,当前的智能语音交互行业很大程度上都是各家企业在闭门造车,行业环境不够开放是最大的问题。技术上的缺乏交流制约着行业的进一步提升。而本次百度开放关键性技术则对改善上述问题明显有着重要意义,通过多项关键技术的开源共享,行业死水将被盘活,当前行业因技术障碍存在的问题,比如语音识别距离短,语音唤醒率不尽如人意等势必将得到改善。
百度的四项技术,应用与指导意义
本次百度宣布开放共享的情感合成、远场方案、唤醒二期技术和长语音方案这四项技术,实质上包含的是语音交互领域的合成,识别,唤醒和理解这四大基础板块。
语音合成技术历来给用户的印象或许就是机械,刻板的电子声,而这种不自然的声音也在一定程度上影响了用户群体对智能语音产品的接受程度。而百度的情感合成技术通过百小时级别以上的语音音控大数据采集和独有的人类发言韵律停顿预测技术处理后,电子声变得更加接近真人声音,一个典型的例子是百度今年早些时候曾利用此技术,复原已逝明星张国荣的声音。
而远场方案则对解决智能语音交互技术的应用场景不够宽泛问题有重要意义,这项技术得到分享之后,开发者可以利用这一接口,使语音识别距离增加到3到5米,同时拥有93%以上的语音识别率,这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
作为业界公认的智能语音交互的基础组成技术,所谓唤醒可以简单的视为给智能语音产品加上了一双“耳朵”,有了这一能力,产品才能听到用户的呼唤并响应操作。百度语音唤醒技术则有以下几个特点:支持用户自定义唤醒词,不仅满足了用户的个性化需求,在与系统指令唤醒词相结合之后还提升了产品性能,比如可同时下达拍照和照明的指令;加入双层解号器,提高了唤醒准确率,目前百度语音唤醒准确率高达95%,误报次数被控制在24小时一次以内;在唤醒功耗方面,百度语音唤醒的功耗则是国内很多竞品的三分之一。
当前市场上的主流语音识别应用,其绝大部分都是短语音识别。比如搜索使用的是关键词,地图语音输入的是地址,语音助手输入的是指令,输入法使用语音看似是长语音,实际上最长支持不超过60秒。因此,长语音识别技术再次拓宽了智能语音交互的应用场景,一个简单的例子就是语音输入法不再受时间限制,用户可以用口述“写文章”,“写日记”。而长语音使用环境下,语音识别的准确率既是重点,也是难点,百度长语音技术则从多个方面实现了突破:使用了LSTM对语音进行噪声进行建模,切分准确率超过99%;生成模型使用了说话人自适应,保证了每个人说话时间越长识别效果就会越好;还实现了对识别结果的智能纠错,从结果层面保证了识别准确率。
不难看出,百度开放的这四项全新技术对于当前智能语音交互领域技术的推进、落地和产品的优化有着重要作用。事实上,这些技术并不仅仅存在于理论上或实验室中,百度已经在多个实际场景中成功运用了这些技术,与包括联想、中兴、长虹、康佳、SONY、特斯拉、途胜、惠普、艾米通讯等手机、家居、汽车、服务行业的众多企业均展开了合作,新兴技术的成功落地应用对整个语音交互行业走下云端普惠C端有着一定的指导作用。
新一轮变革在即,产业化时代来临
到目前为止,百度语音开放平台已经交出了一份令人满意的答卷,平台开发者数量已超过14万,每天识别的在线请求数在1亿以上,合成的在线请求数在2亿以上,百度语音搜索的整体用户量在2015年增长超过3倍。
而在此之前,百度也已经开源了深度学习开源平台PaddlePaddle、人工智能技术平台Warp-CTC等,同样推动了新兴技术的传播与发展,对业界产生了积极影响。随着语音交互领域多项先进技术的开源,这一领域的竞争将变得更加激烈,同时将有更多科技巨头愿意分享先进技术,推动行业发展。
更重要的是,传统的语音交互技术将受到极大挑战,例如百度当前的语音交互架构相对于工业界主流的CLDNN 结构,错误率相对降低了10%以上,共享技术之后,当前主流架构将被逐渐淘汰已经在情理之中。同时,在快速发展、迭代的语音技术下,组建新知识产权产业联盟已经势在必行,业界先例是2015年底百度开放上百项智能语音专利并与海尔、京东、中兴通讯在内的 20 多家企业组建了智能语音知识产权产业联盟,
随着语音交互技术的进一步开放,这种开放式创新和开放式知识产权许可的结合,或许会取代传统的语音专利池,成为智能语音未来的产业核心模式。事实上,在百度、谷歌、亚马逊等国内外科技巨头的紧逼下,智能语音行业格局已然改变,传统语音技术巨头Nuance集团在2014年还占据语音交互领域60%市场份额,2015年末就遭到腰斩,仅为31%,随着行业技术的开放和发展,产业格局将继续发生变化。
可以说,随着技术的开放和进步,语音交互的应用场景将更加宽泛,落地商用速度也将加快,语音交互领域即将进入大规模产业化的时代,新一轮的变革来临之际,核心技术和能力比拼正是个中关键,谁能掌握这两点,谁就能获得领跑的资格,而对于用户群体来说,智能语音交互的未来足够光明值得期待。