借互联网女王热度,聊聊语音控制的历史与亚马逊echo
按照前两天陆家嘴29秒视频导致当天曲美家具股票涨停的逻辑来看,建议大家开盘买入主营语音识别技术的科大讯飞:就在昨天,毁誉参半的互联网女王玛丽·米克尔发布了2016年互联网趋势报告,其中不仅一如既往的吹捧了中国互联网行业迅猛发展之外,还特别有针对性的拍了语音功能的马屁,将语音功能赞誉为“人机交互的新范式”,并称语音功能“解放了双手和眼睛,扩展了永远在线的概念”(以上部分截取自腾讯科技中译版)。
(OS:讯飞公关小伙伴们,咱们什么时候把推广费用结算一下啊?)
必须钦佩一下米克尔女士对于科技行业的敏感和专注:从2013年开始,语音服务开始在形形色色的的智能产品上开始落地,且在2015年达到一个顶峰,从智能电视到家庭机器人以及各类智能家居产品上都能看到语音功能扮演着各种各样的角色,不过就和罗马不是一天建成的一样,从语音输入到语音识别再到还远远不成熟的自然语言交互,语音也是经历了漫长的积累才终于熬到了成为主角的机会。
< 上古时期的语音输入:且难且前行,但最终的归宿依然还是垃圾箱>
提到语音功能,很重要的一块奠基石来自伟大的资本主义国企-IBM,也就是存活于西二旗人民各类段子里的18摸。曾经让IBM实验室呕心沥血并引以为豪的IBM VIAVoice软件,在苦苦坚持了若干年后终于在2003年被扫地出门被出售给了ScanSoft,让ViaVoice不再受宠的原因,固然有市场推广和高昂的售价等等营销方面的因素,但无论如何都无法解决的语音输入准确率的致命Bug才是关键,毕竟语速、口音、连读等因素让当年还处在单机时代的IBM无法获得足够多的训练语料,而这是增强语音识别率的核心所在,即使IBM有再多的钱,也没办法不停地找到各种不同口音的人来录制语料样本。
< 移动互联网的普及,让语料和纠正的成本降到最低,轻松跨过文字识别这道坎,进入语义识别时代>
ViaVoice被出售后语音识别行业很是消停了几年,不过随着移动互联网的普及(翻译成人话:人手一部智能手机),科大讯飞和百度都看中了手机输入法市场(这次你们两家一起把推广费用结了!),提供免费服务的背后,他们真正看重的是用户所免费提供的语料以及纠错服务。依靠海量用户上传的语音数据和用户自行修正的输入结果,语音输入法提供商们能够接近0成本但又高效率训练自己的语音识别引擎,不仅仅是针对于普通话,在GPS地点信息的支持下,东北话四川话广东话等各大方言的识别率也已经不是问题,于是之前把IBM逼入死角的语料库问题,在互联网时代就这么被众包的形式给轻松解决了,可见IBM这种技术先驱优势还是得踩准时代的步点儿啊……当文字能够被正确识别后,下面更多的工作则是让机器能够理解用户所说的话,并翻译成相应的控制命令了,这才是语音功能真正的价值所在。
< 在语音识别准确率已经不值钱的情况下,语义识别能力将会决定语音企业的“钱”景,而智能家居可能会成为第一个真实的试水场景,看看echo 的案例>
清朝人说“千里做官只为财”,技术研发其实也是一样的,不能变现的技术一定不是好技术。相比较语音输入充其量只能颠覆速记行业来说,语义识别这件事儿的重要程度可是要大上许多:在人类一步一步将文字输入方法从打结-篆刻-笔录再进化到打字后,我们会惊讶的发现一个事实:这么多年以来,人类是越来越懒了,我们期望生活中的一切都能够自动化起来,“走到家门前喊一声开门,进屋后再喊一声开灯,坐在沙发上说一句话电视机就打开而且还能自动换到你喜欢的频道”,无数个产品经理曾经给他们的老板或者客户吹过这个牛逼,但真正让这个功能被市场接受并形成较大销售量(当然肯定依然亏钱卖的),还是从Amazon的echo开始的。
分析一下echo之所以能够(预见)成功,应该是因为以下三方面因素:
1. 产品设计中包括音箱功能,能够大大降低用户了解这个产品的心理门槛。 坦率的说语音控制还不是一个特别接地气的产品,更多的用户来看这还是个颇具Geek范儿的东西,但音箱则不然,音乐作为正常人类的刚需是无法被取代的,因此音箱这个设计可以有效扩展用户群,降低接受的门槛。
2. 通过麦克风阵列,实现了远程语音控制的功能,降低了操作门槛。 Echo的远程语音(行业内常简称为“远讲”)相比较现有Siri需要抄起手机按住按钮调起Siri界面而言,优势无疑是巨大的,这使得用户只要轻松开口对着身边的空气说一句“Alexa”,就能激活语音控制功能而根本无需借助其他手持设备,这种“随时随地”的体验上手轻松因此大大提升了用户的活跃度,还是那句话,人类真的越来越懒了……
OS:真的没有人想自定义这个唤起词么,把Alexa改成“空空”“志玲”什么的……
3. Skills 开发平台的出现是整个echo 生态的精华,远超过所谓的“一秒回复”。 如果echo只能够在Amazon自有生态中通过语音控制选择听那几首歌的话和一个普通的大玩具没有区别,但是Skills作为一个开放平台使得echo成为了那个与其他智能家居产品的中央连接器,通过语义识别转化成其他产品能够接受的操控信息,最终实现了语音控制整个智能家庭设备的场景,这对于echo来说是一个伟大的创举,不仅仅是在技术实现上,更是在商业模式上。
<echo 已经这么智能,那么能听懂我们说话的机器人,离我们的生活到底有多远?>
前面提到了人类变得越来越懒,其实我们还越来越贪心了,总是梦想着打造能够和我们自如交流的各色机器人来让提升我们的生活质量,不过就现在而言,语义识别技术还远远无法支持这种和人类沟通自如的机器人,因此如果实在有兴趣的话,建议不妨下载一个视频网站App,去里面找找感觉吧,相信搜索“机器猫”、“钢铁侠”和“霹雳游侠”都能够满足你得要求……
--------------------------------------------------------
盘踞在北京市海淀区西北旺后厂村路,某厂产品经理|每天早晚加入堵车大军,专业阻碍中国互联网行业发展三十年^_^
欢迎关注熊熊叨叨的微信公众号,搜索“bearsays”或“熊熊叨叨”即可添加。
版权声明:以上内容为熊熊叨叨原创,接受各媒体转载,要求保证全文包括版权声明部分完整性,不得删改。