智能互联网时代来临，最先爆发的AI应用会是语音吗？

砍柴网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

移动互联网之后智能互联网时代已然来临。不过，究竟什么是人工智能？AlphaGo战胜人类棋手除了可以作为谈资之外其实与大多数人没关系，用人工智能技术调度外卖配送员我们普通人也感受不到其威力。在我看来，人工智能技术最典型且最先普及的应该是语音——如果说人工智能是互联网上的皇冠，那么，语音技术就是这颗皇冠上最璀璨的那颗明珠。

种种迹象表明，智能语音正在改变我们的生活或者生产方式：

在上海一家肯德基餐厅内，度秘可接收顾客的语音命令帮客人点餐；

Amazon Echo和Google Home为代表的智能音箱，正在成为家庭的新入口；

阿里云栖大会和天猫双11晚会上，演讲嘉宾的话被实时转化为文字，准确率近100%；

锤子M1L发布时，讯飞语音输入法成为这场发布会的最大亮点；

手机天猫的商品评论功能已经支持语音输入，大幅提升了用户的评论意愿；

……

智能互联网时代来临，最先爆发的AI应用会是语音吗？

由于更加自然、快速和简单，语音正在逐步取代“打字”成为主流交互方式，各行各业都在思考如何利用语音技术，手机电视等硬件厂商加入语音将之当做卖点，O2O服务平台加入语音搜索便于用户下单，电商平台加入语音评论功能降低互动门槛，售后服务加入语音降低客服压力，企业借助于语音工具记录会议内容……

语音技术大规模爆发

语音进入大众视野已有许多年历史，事实上，Siri早在2011年就已经发布，当时国内也有不少跟随者，为什么5年之后的今天语音才进入爆发期呢？最关键的原因在于：

1、技术进入成熟可用阶段。当识别率只有90%的时候，语音就会被吐槽为玩具，然而，随着深度学习技术被引入语音之中，语音技术就实现了从90%到99%的跨越。百度有基于百度大脑深度学习技术的Deep-Speed技术，讯飞有“讯飞超脑”，搜狗也与清华大学联合建立人工智能实验室，人工智能驱动语音技术走向成熟，变得可用，是语音技术今天爆发的第一个背景。

2、4G网络普及速度超预期。不论是Siri、度秘还是语音输入法，要能准确、快速识别出语音的前提是终端要接入网络，并且要高速网络，4G网络在最近两三年的普及速度超过了所有人的预期，5G商用也越来越近了，高速的网络环境给语音提供了便利的基础设施。

3、大数据和云计算普及应用。人工智能算法生效的前提是对海量数据进行机器学习，同时要通过云端大规模集群进行并发式计算。语音技术需要对大量的语料进行计算，大数据和云计算在这几年成为互联网基础设施，成为语音技术爆发的又一个前提。

4、语音应用场景大幅增加。这几年，后移动互联网时代迎来了几波潮流：O2O、智能硬件（智能汽车、智能家居、智能可穿戴等等）还有互联网+，这些场景给语音提供了大量的应用场景。

智能互联网时代来临，最先爆发的AI应用会是语音吗？

语音爆发在即，开发者并不具备研发语音底层技术的能力，但可以将巨头开放的语音技术与自身业务紧密结合，成为语音技术的应用者。市面上有不少语音开放平台，有的收费、有的免费，现在最普及的语音开放平台，来自于百度。百度语音平台在2013年11月正式开放，在当时我的看法是“百度语音开放可以成为推动这一市场蓬勃兴起的催化剂”，现在看来这是对的。

百度语音开放平台如何崛起？

11月22日，在百度语音开放平台三周年大会上，百度首席科学家吴恩达介绍，百度语音开放之后，2013年每天的在线语音识别请求量是500万，今天这个数据变为1.4亿请求量；在线合成从2014年的1.2千万到现在超过2亿；开发者数量从2014年1万增加到今天超过14万开发者，百度的语音开发者生态浮出水面。

智能互联网时代来临，最先爆发的AI应用会是语音吗？

鉴于11月23日即今天下午是科大讯飞2016年度发布会，百度语音在11月22日前高调召开发布会，截胡之意十分明显。百度语音开放平台的玩法，让我想起百度地图与高德之争：百度免费让高德不得不跟进，最终实现了互联网化。科大讯飞2009年成立，百度语音团队在2012年才成立，作为后来者，百度语音凭什么能做成呢？

第一点，也是非常重要的一点，百度语音率先使用了深度学习技术，进而在语音技术上取得突破。这是吴恩达加盟百度之后着重做的第一件事情，基于深度学习的DeepSpeech2语音识别系统准确率达到了97%，这个成果被评为MIT评为2016年十大技术突破，同时，在噪音环境下的表现很好。在百度大脑被公布之后，讯飞才跟进成立“讯飞超脑”，深度学习技术是百度语音能够做成的关键。现在，百度正在语音情感合成、远场语音交互、语音唤醒技术等领域发力，做深做细，强化技术壁垒。

第二点，百度在语义理解技术上优势明显。语义理解不只是要求机器听得到，还要听得明白，甚至可以基于上下文对话。这需要自然语言处理技术的配合，去理解识别到的语音中的语义。百度是搜索引擎起家，在自然语言处理尤其是中文处理上优势明显，再结合任何智能技术，在语音交互上有度秘表现比Siri、Google Allo更好，甚至支持多轮交互，在语音应用上有自然语言翻译，这些都体现出百度在语义理解上的优势，百度语音开放平台也支持50多个垂直领域的语义理解，支持人机多轮对话。

第三点，则是非常独特的一点，百度不只是有语音开放技术，开发者往往会需要使用多种技术能力，一个App不能只有语音，可能还需要LBS位置能力，百度地图是最大的开发者平台；还有在人工智能上，百度提供语音合成技术、图像识别技术、自然语言处理技术、用户画像技术以及机器学习技术的开放，这些可能也是开发者所看中的，这也是百度相对于只提供语音技术能力的平台的优势。

第四点，百度所开放的不只是技术，还有用户、数据和计算资源。许多开放平台开放的是API，即技术能力，但开发者需要的不只是技术能力，互联网巨头都有自己的生态，它们可以吸引开发者的原因就在于用户、数据和计算资源，百度产品矩阵拥有数亿用户，其中不少用户有语音习惯，还有就是用户行为大数据以及云计算资源，这些都是开发者看重的。

语音大战新的主战场是什么？

不过，语音技术进入爆发期，还有许多应用空间，开发者有复杂多样的需求，百度语音开放平台将切下一块蛋糕，但不会吃掉所有的。接下来，语音技术还有许多重点领域要克服，除了抗噪、口音两大问题之外，语音接下来的关键竞争点在于：

1、语音唤醒技术。

我们通过“Hey Siri”“Ok Google”唤醒语音助手，这让语音助手随时待命，不过对移动设备来说有较高的功耗压力（Google Home和Amazon Echo音箱一直插电，不用考虑功耗问题），还有就是唤醒准确率存在问题，要么手机听不到，要么误判。还有就是唤醒的语句固定、不能区分用户身份，体验不够好。百度语音开放平台三周年时选择开放唤醒二期技术，功耗是友商的三分之一，唤醒准确率达95%，支持“茄子”启动拍照这样的自定义唤醒词，相信之后还会引入声纹识别技术区别身份。

2、远场语音交互。

现在语音交互技术对人与设备之间的距离有要求，要“对着手机说”，这其实是很傻的，我们在生活中与人对话，可不会距离这么近。在家里我们要控制电视机，还得对着遥控板说。远场语音交互技术解决的就是这个问题，它让机器可以听到几米外的人说的话，挑战也很大，有回音，有噪音，有衰减，百度已经自主研发了支持3-5米的远场语音技术，这意味着之后我们可以睡觉时让热水器启动，或者坐在沙发上直接对着电视发号施令了。

3、语音合成技术。

现在机器说话都很死板，我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是，让机器说话声音更像真人，不只是“音色”接近真人，而是更有情感，抑扬顿挫、饱含深情。百度语音开放平台基于大数据和深度学习建模方式，在情感合成上有较好的表现，语音开放平台增加的一个新能力就是语音合成技术。

4、长语音识别。

输入一大段话的识别，过去对机器来说很有难度，涉及到断句等诸多方面，现在输入法，包括大会上演讲者的声音识别都有不错的表现，这表明长语音识别技术正趋于成熟。不过，要实现同声传译、用语音发邮件、写文章，甚至进行会议纪要，短期内还是很困难的，李彦宏、王小川等大佬们的说法也是“未来会取代同声传译”。当然，随着长语音识别技术的成熟，接下来语音还有更多应用场景，比如智能客服、内容纪要等等，取代同声传译不会这么快，但是最终一定会。

5、语义理解技术。

语义理解能力进一步提升，中文博大精深，很多话文字一样，不同场景表达意思不一样，语音技术要跟场景结合去理解语义，还要结合上下文。甚至要跟别的智能技术结合去理解，比如用户可能会指着一个物体说“请问它的英文怎么说”，只有语音技术就解决不了这样的交互，还得有图像识别技术；再比如用户会问“我们这里的天气怎么样”，这需要LBS技术的配合。总之，基于场景、结合人工智能综合技术的语义理解，可能会是语音技术接下来攻克的重点。

每个行业都在利用人工智能技术，而人工智能里面最先普及的，必然会是语音技术。随着IoT时代到来，越来越多的联网设备会遍布在我们周围，手机、电视、电灯、汽车…都会具备语音交互能力，随时待命，聆听我们的声音并做出响应。因为语音技术的成熟，我们与这个世界对话将越来越多，我们的双手将被解放，我们的世界将更加美好，未来已来。

微博@互联网阿超微信罗超（luochaotmt）

本文被转载2次

首发媒体

砍柴网

| 转发媒体

随意打赏

互联网下一个爆发点互联网时代的来临互联网时代的营销互联网时代来临互联网女皇语音互联网时代的到来互联网大数据时代什么是互联网时代互联网公司排名智能互联网时代

土味短剧，凭什么能“碾压”半个互联网？

i黑马 • 2分钟前

来源：道总有理（ID：daotmt）作者：道总过去2024年，无论是大模型、造车，还是预制菜、低空经济……似乎都不如短剧的风头强劲。数据显示，2024年，短剧的市场规模将超过内地电影票房，达到500亿元。预计到2027年，我国微短剧市场规模将超过1000亿元。除了碾压电影，国内的短剧用户规模已达
深耕技术创新，量化派入选2024“产业互联网千峰奖”百强榜

砍柴网 • 1天前

近期，由亿邦动力、亿邦智库主办的2024亿邦产业互联网峰会在上海举办，峰会上还举行了“2024千峰奖”颁奖典礼。该奖项由产业投资人、地方投资基金投资人及业界专家评委独立投票产生，旨在发现和表彰产业互联网企业的年度突出表现。量化派成功入选2024年“产业互联网千峰奖”百强
中国互联网，集体告别青春期

虎嗅网 • 2天前

2024年是中国全功能接入国际互联网的30周年。1994年，中国开通首条64K的国际专线，实现了与国际互联网的全功能连接，成为国际互联网的第77个成员。每一段历史都有其特殊性和迷人之处，尤其对于1994年至2024年的中国互联网产业。过去的30年，是“互联网连接一切的时代”，是“热钱燃烧的岁月”，是“一切产业都值得用互
中国网民规模达11.08亿人，互联网普及率升至78.6%

砍柴网 • 4天前

1 月 17 日消息，据央视新闻报道，中国互联网络信息中心（CNNIC）今日发布第 55 次《中国互联网络发展状况统计报告》。《报告》显示，截至 2024 年 12 月，中国网民规模达 11.08 亿人，互联网普及率升至 78.6%。截至 2024 年 12 月，IPv6 地址数量
知乎2025“互联网十问”引行业大讨论，探寻时代破局之道

砍柴网 • 5天前

当互联网深度嵌入社会肌理,AI掀起变革浪潮,人类对于未来的想象也再度发生着变化,思想交锋与碰撞也愈发激烈。在这一背景之下,知乎“互联网破局者—2025互联网十问”线上讨论活动应运而生。泡泡玛特创始人王宁、美团核心本地商业 CEO王莆中、微软中国首席技术官
CFO，全面接管中国互联网大厂

i黑马 • 9天前

来源：时代周报（ID：timeweekly）作者：徐晓倩过去一年，中国互联网的权力中心逐渐向CFO倾斜。2024年最后一天，盒马鲜生（以下简称盒马）新任CEO严筱磊宣布，盒马在连续9个月整体盈利的基础上实现了双位数增长，顾客数增长超过50%。在兼任CEO职务之前，严筱磊是盒马的CFO，创始人侯毅退
知乎“互联网破局者”叩问未来，王宁、王莆中等再现经典“十问”

砍柴网 • 12天前

1月9日,泡泡玛特创始人王宁、美团核心本地商业 CEO王莆中、微软中国首席技术官韦青、Hugging Face联合创始人Julien Chaumond以及文化学者马家辉等十位各行业领军人物,在知乎上发起了“ 互联网破局者—2025互联网十问”活动,提出各自关心的问题,并与千
2025 年互联网八大预测：这些将会改变你的生活

砍柴网 • 23天前

如果现在给你一个机会，可以穿越到 2024 年 1 月份，你会想做什么？仔细想想，好像也没什么可以做的。世界依旧朝着一个相对稳定的轨道运行着，整个社会、经济在 2024 年并没有发生什么天翻地覆的巨变。如果是穿越到 2014 年呢？emm ……好像可以列一个满满当当的 To Do
互联网30年破灭的6个神话

虎嗅网 • 25天前

互联网曾被视为改变人类社会的重要技术变革之一。上世纪90年代，《数字化生存》一书在国内风靡一时，年轻创业者都受此书影响投身互联网浪潮。麻省理工学院教授尼葛洛庞蒂在该书中深信：互联网将创造一个更加和谐的世界，将促进全球共识，乃至提升世界和平。二十多年后，他不得不失望地承认：但是它没有，至少尚未发生，无所不在的数字化并没有
互联网老兵白秀峰：餐饮数字化十年留下什么

雷锋网 • 27天前

11月29日早晨，我们见到白秀峰时，他身着一件轻薄羽绒服，里面搭配卫衣，脚上是一双运动鞋，看上去就是典型的互联网人。白秀峰素来喜欢运动，平时喜欢踢足球、骑机车。见到他的前一天，他刚从日本赶飞机回国，参加了一场在北京的足球赛。白秀峰说，自己生活状态比较随性，而在工作上则会很严谨。他发视频号分享行业看法时，显得相

评论