为什么说语音可能是下一个Big thing？

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

为什么说语音可能是下一个Big thing？

本文原作者 Savina van der Straten，Point Nine Capital 的投资人，由腾股创投编译整理。

近几年来，我们取得了巨大的技术进步。语音识别引擎的准确性已经提高了很多，现在达到了95％的准确度，略高于人类的成功识别率率。随着这项技术的改进，语音优先的基础设施变得越来越重要，导致亚马逊，苹果，谷歌，微软和百度都迅速进行布局，发布软件构建模块和平台。语音似乎要兴起了。

在本文中，作者总结了： 我们目前掌握语音识别技术的现状，以及基础设施如何围绕语音发展起来，以了解过去几十年来这一领域发生了什么。

语音是最自然的沟通方式，但语音并不是机器交互的主要界面。自从爱迪生发明留声机之后，人们一直在和机器交谈，但是主要为了与他人进行通信，而不是与机器本身进行通信。到了20世纪80年代，语音识别技术将口语转化为文本的识别率开始足够准确。2001年，计算机语音识别达到了80％的准确度。我们可以从口头对话中提取意义，并做出回应。然而，在大多数情况下，语音技术仍然不足以提供比键盘等界面更好的体验。

语音识别历史

语音识别不是新鲜事，起源于上世纪五十年代，但多年来一直存在多种理解语音的方式。

在本文中我将进行总结，以了解过去几十年来这一领域发生了什么。

为什么说语音可能是下一个Big thing？

1950年代/1960年代

第一个语音识别系统是基于简单的模式匹配。这些早期系统的一个很好的例子是公用事业公司使用自动化系统让客户不用看仪表读数。在这种情况下，客户端对系统的回答是一个有限的选项列表中的一个字或数字，计算机只需要区分有限数量的不同声音模式。它通过将每个声音块与其存储器中的类似存储模式进行比较来实现。

在1952年，贝尔实验室的一个团队设计了能够理解口头数字的机器Audrey。

1970年代

技术进步导致了基于模式和特征分析的语音识别系统的发展，其中每个单词被分解成小部分并且从关键特征（例如它包含的元音）中被识别。这种方法涉及声音的数字化和将数字数据转换成频谱图，将其分解成声音帧，分离单词并识别每一个关键特征。为了识别可能已经说过的内容，计算机必须将每个单词的关键特征与已知功能的列表进行比较。系统越来越好，因为它集成了来自用户的反馈。这种方法比以前的方法要高效得多，因为口语的基本组件声音数量相当有限。

从1971年到1976年，DARPA资助了五年的语音识别研究，目标是最终能够理解至少1000字的机器。该计划导致卡耐基-梅隆大学大学创造了一个能够理解1011个单词的机器。

1980年代

但是此前的技术仍然不是非常精确的，因为言语中存在的巨大的复杂性：不同的人可以用不同的方式说出同一个词，有许多相似的词（例如two和too）等等。语音识别系统开始使用统计学方法。在此期间推出的关键技术是马尔可夫模型（HMM），用于建立声学模型和随机语言模型。

声学模型代表音频信号和语言中的语音单元之间的关系，以重建实际发出的内容（特征→音位）。语言模型基于最后一个单词预测下一个单词（单词→句子），例如。“God save the“之后最可能出现的单词是Queen（天佑女王），另外，还有一个语音字典/词典提供关于单词及其发音的数据，并且连接声学模型和语言模型（音素→单词）。最终，语言模型分数与当前单词的声学分数相结合，以确定单词序列的排序。

玩具娃娃Julie Doll在1989年将家庭语音识别技术带到家庭中。可以帮助儿童训练语音、说话。

为什么说语音可能是下一个Big thing？

1990年代

一直到20世纪90年代，语音识别系统的速度都太慢，无法开发有用的应用程序，但是当时出现的更快的微处理器可以进行重大改进，而第一个语音识别商业应用开始出现。

Dragon公司在1990年推出Dragon Dictate，是第一个消费级语音识别产品。在1997年，你可以在一分钟内说100个字。

2000年代

计算机语音识别在2001年达到了80％的准确度，但没有多少进展。

2010年代

在过去十年中，机器学习算法和计算机性能的进步已经导致了更有效的深层神经网络（ DNN ）训练方法。

因此，语音识别系统开始使用DNN，更具体地说，是DNN的特殊变体，即循环神经网络（RNN）。基于RNN的模型显示出比传统模型更好的精度和性能。事实上，2016年的语音识别准确度达到了90％，Google声称在2017年6月达到95％的准确率。

这是非常惊人的，要知道研究人员估计人类转录精度略低于95％。然而，这些公布的结果应该仔细考虑，因为它们通常在完美的条件下测量，例如，没有背景噪音和英语母语的录音。在“非无菌条件下”的准确度可能快速下降到75-80％。

当你需要标记数据来训练算法时，现在面临的挑战是获取现实生活中数千小时的口语音频，以提供给神经网络并提高语音识别系统的准确性。这就是Google，亚马逊，苹果和微软正在通过将Google Now，Siri和Cortana在手机免费提供服务，以便宜的价格销售Alexa智能音响的原因。一切都是为了获取训练数据！

语音基础设施的开发

语音基础设施开发可以分为3个必需的层次：新的应用程序出现：（1）硬件允许更多的人使用语音作为接口（2）软件构建块，使开发人员能够构建相关的语音优先的应用程序（3）生态系统，以实现有效的分配和商业化。

为什么说语音可能是下一个Big thing？

语音硬件的普及

语音分析公司Voicelabs将语音优先设备定义为始终在线的智能硬件，而其中主界面是语音，包括输入和输出。市场上首个语音优先的硬件是2014年底发布的智能音箱Amazon Echo。根据2017年VoiceLabs的报告，2015年发布的语音优先设备达170万台，2016 年将达到650万台，2017年将有2450万台设备发货，市场总流通设备数达到3300万台。

市场上的主要智能音响是Amazon Echo（2014年11月）和Google Home（2016年11月）。然而，新玩家正在迅速进入市场：索尼推出了内置Google助手（2017年9月）的LF-S50G，苹果即将推出Homepod（2017年12月），三星也最近宣布“即将发布”，Facebook可能会发布带触摸屏的智能扬声器。Google助手还将来到一些新的智能音响，其中包括Anker的Zolo Mojo，Mobvoi的TicHome Mini和松下的GA10。

无疑，语音优先的硬件层正在快速发展，预计会有所增长！

语音优先应用程序的软件构建门槛降低

从头开始构建语音应用程序不是一件容易的事情。Nuance和其他大型公司已经向第三方开发人员提供语音识别API，但是使用这些API的成本历来相当高昂，并没有获得很好的结果。

随着语音识别技术开始取得更好的成果，语音优先应用的潜力越来越大，像Google，亚马逊，IBM，微软和苹果以及Speechmatics这样的大型公司开始在较低级别提供各种低价的API产品。

一些最常用的包括2016年7月发布的Google Speech API，和2016年11月发布的亚马逊Lex和Amazon Polly。

现在，大量开发人员可以以合理的成本构建语音优先的应用程序。

语音优先生态系统的出现

随着越来越多的语音优先应用和硬件带来越来越多的语音交互界面，平台不仅需要解决了分发和商业化，分析和营销自动化等第三方服务也越来越重要。

亚马逊，Google和微软已经开始建立这样的生态系统，预计苹果也即将开始。衡量这些生态系统成功的一个好方法是总技能：

为什么说语音可能是下一个Big thing？

版权声明

凡来源为亿欧网的内容，其版权均属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点，不代表亿欧对观点赞同或支持。

随意打赏

one more thing next big thing the thing thing

评论