语音交互不再是幻想，是时候进入说听说新智能时代

搜狐科技 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

　　还记得科幻片《钢铁侠》中，托尼·史塔克的AI管家贾维斯吗？只要托尼一声呼唤，无论语速快慢，声音大小，老贾的程序都能被迅速激活，完美地执行托尼的各类语音指令。

　　随着科技快速迭代升级，过去在科幻片中出现的情景，很多都在日后变为了现实。贾维斯这样的语音识别与交互方式，未来终将出现在日常生活中。当然，普通人不可能像托尼那样整天背着一套沉重的高科技行头，声音的交互也可能出现在生活的各类场景中，比如开车、做饭、健身、睡前……

　　有一种观点认为，未来人机交互的创新，不会再局限于以手机为载体的功能软件或服务，从汽车到冰箱再到闹钟的各类设备都将成为新载体，进入万物互联的新时代。

　　万物互联时代的信息交互将极为便捷和通畅，而正如《钢铁侠》中的贾维斯一样，“说”和“听”将是这一切的基础。

　　 “正在输入”烦透了不如直接说话吧！

　　是不是也有过这样的感受：与朋友或同事聊微信时，对话框上方一直在显示“对方正在输入”，信息却迟迟出不来，只能逼迫自己耐心等待，碰上紧急事务更是尤为焦躁。

　　这时你会想：还不如语音通话来得痛快！

　　当然，上述情形只是针对人际之间的交流，如果嫌文字输入不方便，那就干脆拨通对方手机号。那么，如果是人机之间的互动呢？如果人机之间也能实现语音对话，交流将会方便很多。况且，人际交流还得考虑对方是否方便接听语音，而人机交互却完全不用考虑这个问题。

　　事实上，不管是键盘还是触摸屏，文字其实都是限于我们目前的技术条件而不得不为之的低效率输入方式，是一种“妥协”的产物。

语音交互不再是幻想，是时候进入说听说新智能时代

　　回想我们每个人自出生以来的学习和交流方式，其实声音是最原始也是最自然、最有效率的方式，随着未来语音识别技术的突破，一“说”一“答”的信息获取方式将变得更为普遍。

　　不久前，“互联网女皇”玛丽·米克尔的2016年《互联网趋势》(Internet Trends)报告中，就已经将超过十分之一的篇幅给了语音，远远多于时下热门的汽车、直播等领域。

　　玛丽·米克尔认为，语音正在被重塑，成为人机交互的新范式。在过去75年里，每10年就有一次人机交互的重大革新，人类对机器的操作，经历了从物理手柄按键，到物理键盘鼠标，再到触摸屏的过程，而现在轮到了语音。

　　 “女皇”的结论也相当肯定：未来，语音将从根本上优化人们的生活方式。

　　语音的媒介就是音频，过去人们提起音频，更多想到的是广播电台，但移动互联网的出现彻底改变了这种固有印象。

　　移动互联网时代，人们的碎片化时间越来越多，这为“听”提供了无限多的使用场景。相比视频、图文等其他媒介形式，音频具有独特的伴随属性，你可以一边说和一边听的同时不妨碍做其他事情，比较典型的场景有做饭、开车、健身等，音频内容和语音交互技术都很可能出现在生活中的各个角落。

　　就国内市场而言，音频行业已经成功从小众走向大众。第三方营销数据技术公司秒针系统于去年四季度发布的报告显示，国内城市人口中每3人里就有1人经常收听移动音频。而包括喜马拉雅FM、荔枝FM、蜻蜓FM、考拉FM在内的数家音频公司已经赢得了大批用户的青睐，这已经为未来语音交互的变革打下基础。

　　 “贾维斯”还很远，全场景模式就在眼前

语音交互不再是幻想，是时候进入说听说新智能时代

　　提前感受到风口的是那些科技巨头们，谷歌Google Now、苹果Siri、微软Cortana和亚马逊的Alexa都在试图帮助消费者通过声音来与周围的世界进行交互，如今已能够为用户朗读短信或电子邮件，回答实用的问题，控制手机功能，处理基本的通讯任务，浏览地图等等。

　　而从具体的使用场景来看，未来语音交互的方式会向两个明确的方向发展。

　　一种是“贾维斯”式的个人管家模式，即随身携带的一套集成式智能穿戴设备，用户一有需求即可与“贾维斯”沟通，后者第一时间帮助用户提供信息或解决问题。

　　另一种则可以被称之为全场景模式，在生活里的各种软硬件设备中引入交互系统，用户走到哪儿就能说到哪儿，比如在厨房就说给冰箱听，在车里就说给汽车听，在床头就说给闹钟听。

　　未来两种模式都会有很大的想象空间，当然现在唯一欠缺的，同时也最重要的是，还需要突破语音识别的技术瓶颈，这个瓶颈一旦突破，一切都将变得容易，但目前来看仍颇为困难，相比之下，移步换景的全场景模式会更早一些落地，甚至三年之内就能初具规模。目前，很多智能设备厂商都已经配备了智能电子屏，并纷纷接入音频服务，提供触屏和语音等多种交互方式。

　　全场景模式的背后，仍然是未来音频作为伴随性媒体的巨大优势。有观点认为，未来媒体会往两个大方向演化，一个方向是以VR为代表的沉浸式媒体，另一个则是以移动音频为代表的伴随性媒体。

　　有一个直观的数据能够说明趋势：目前音频分享平台喜马拉雅FM的活跃用户日均收听时长超过了108分钟，其背后是基于大数据技术的个性化推荐，以及喜马拉雅开放平台打造的各个生活场景分发，使得许多人一天听音频的累计总时长远远超过了看视频的时长。这种模式实际上是为用户创造了一个“万物有声”的世界，让用户随时随地都能有声音的陪伴。

　　 “麦克风+喇叭”：开放平台跟眼睛抢场景

语音交互不再是幻想，是时候进入说听说新智能时代

　　全场景模式对移动音频创业者们来说即是机遇，但同时也带来了新的挑战。摆在音频创业者们面前一个巨大的难题是，如何发现新的内容渠道出口，让伴随性无处不在，势必要找到智能手机之外的新载体。无处不在的智能家居和智能硬件，自然而然进入了创业者的视线。而要让硬件创业者自愿接受音频内容，这又是一件较为复杂的工作。

　　从这个角度而言，喜马拉雅的开放平台或许值得我们参考。说起内容平台的开放，其实并不陌生。早前今日头条推出了“千人万元”以及天天快报推出的“芒种”计划，但这些不过都是针对上游的内容生产，而喜马拉雅开放平台则独辟蹊径地瞄准下游的内容分发，将平台上既有的音频内容，通过提供丰富的音频工具和内容接口，为各类软硬件厂商提供有声内容的一站式解决方案，已先后与400多家公司达成合作。

　　这也意味着，未来人们在任何生活场景下，都可能与喜马拉雅FM产生交集。想象一下，在你睡觉前，智能灯具推荐你一则温馨小故事或者助眠音乐，让你欣然入眠；在你起床后，智能闹钟或智能冰箱知道你即将开始忙碌的一天，为你推荐最感兴趣的晨间新闻；而在你开车遇见塞车时，车载音频系统会推荐你喜爱的歌曲或者脱口秀以缓解你的不快……

　　 “从长远来看，音频的真正价值才刚刚开启。”此前在公开场合，喜马拉雅FM联席CEO余建军曾如是说。眼下音频创业者可能想到的都是和喜马拉雅的一样的路，如何将他们的内容从下游分发出去。但长期来看，如何将声音真正融入生活，将声音变成水和电一样随取随用，这种基于场景的内容消费可能才是最终出路。

　　换句话说，音频平台们最终想要达成的愿景是，在大多数的生活场景下，用“喇叭＋麦克风”的交互方式，深入到用户日常生活的24小时，打造一个声音无处不在的全新世界。这里面每一步的实现都并非轻而易举，但一个关于“说”和“听”的超级时代，或许正在来临！