百度AI输入法发布全感官输入2.0版本,语音技术取得世界级突破
一年前, All in AI 的百度在北京发布了百度 AI 输入法,即百度输入法的 8.0 版本。当时,百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之下,百度高级副总裁王海峰、百度语音技术部总监高亮以及百度中文输入法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:
"百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上,未来将会赋予更多 AI 能力,提升人机交互的体验。"
时隔一年之后,1月16日,百度输入法在北京举办“AI·新输入 全感官输入2.0”发布会,这次,百度请来的主持人变成了现象级网综《吐槽大会》当家主持张绍刚,经过一年的打磨和发展,百度输入法AI探索版正式亮相,据介绍, 这是一款默认输入方式为 全语音输入 ,并调动表情、肢体等进行全感官输入的全新输入产品。
雷锋网注:百度高级副总裁王海峰
同时,在语音技术上,百度输入法又取得了一项对全球学术界和工业界都具备重大意义的技术突破——流式截断的多层注意力建模(SMLTA)将在线语音识别精度提升了15%,并在世界范围内首次实现了基于 Attention 技术的在线语音识别服务大规模上线应用。
发布会现场,百度高级副总裁王海峰再一次重申了百度输入法是百度AI落地“桥头堡”的战略定位,也给出了输入法行业的“未来画像”,他认为,虽然目前的输入法产品主要应用于手机端,但 未来的输入法将应用于各种智能设备与用户的交互 ,并走向世界,为全球用户提供更多元的输入方式。
据介绍,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。
概括来说,百度输入法AI探索版功能创新共有三点:新交互、新表达、新探索。
新交互:首次提出流式截断的多层注意力模型(SMLTA)
此次发布的百度输入法 AI 探索版,是一款全语音交互的输入法,其默认输入方式为语音输入。
雷锋网注:百度语音技术部总监 高亮
首先,在线语音识别领域: 百度首次发布流式截断多层注意力建模(SMLTA),据介绍,这是中文在线语音识别历史上的两个重大突破:
-
世界上首次实现了局部注意力建模识别精度超过全局注意力模型;
-
世界上第一次大规模部署在线语音交互注意力模型。
语音领域 Attention 模型(注意力模型)的提出已有好几年的时间,注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。
其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法。
近几年,不少专家和学者都在语音识别任务中尝试了注意力模型,实验室环境下,相对于传统技术,也获得到了一系列的提升。但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。
针对以上问题,百度语音技术团队提出了 SMLTA 模型(流式多级截断注意力模型 Streaming trancated multi-layer attention),这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。
据介绍,SMLTA模型是基于 CTC 的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进行当前建模单元的注意力建模。
SMLTA 把原来的全局的整句 Attention 建模,变成了局部语音小段的 Attention 的建模。同时,为了克服 CTC 模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择。最终,这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统 CTC 模型持平。
这一技术能够解决传统 Attention 模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音相对准确率提升15%,百度输入法在线语音相对准确率依然好于最优竞品15%。
迄今为止,百度语音识别模型经历了从 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代过程,至于这种演变过程所遵循的依据是什么,高亮在接受包括雷锋网 (公众号:雷锋网) 在内的媒体采访时表示:
迭代过程有一些路径可循,最开始的时候我们用 RNN 做,然后过渡到 CNN,是因为 CNN 并行计算的能力特别强。到后来发现,LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强,因为它有一定的记忆能力。后来引入 CTC,更多的并不是说在模型上的改变,而是把代价函数变了。这样的话,引入尖峰就会预测得更好。这次把这种局部流式的 Attention 又给引进来,等于前后的 Correlation,也就是出来一个字以后,我再打一个字的话,根据前面输入的字来预测后者出现哪个字的准确度会进一步增强。
其次, 离线语音输入领域: 过去,离线语音与在线语音相比,准确率相差悬殊,体验得不到根本解决。面对这一实际问题,百度语音技术团队优化了输入法上嵌入式识别的 deep peak2 系统,大幅提升了离线语音识别准确率。据介绍,目前百度输入法「离线语音」输入准确率已高于行业平均水平35%。
除此之外,百度输入法还推出了「中英自由说」、「方言自由说」功能,前者可以实现在完全不影响中文语音输入准确率的情况下,高精准的中英文混合语音识输入;后者将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。
新表达:表情、动作成为输入新方式
除了语音输入,百度输入法负责人蔡玉婷在现场还介绍了拍立活、秀场、表情秀社区等新玩法。
“拍立活”功能可以让用户通过自己的动作“驱动”偶像或宠物做出相同表情;发布会现场,百度特意邀请来了网红“发际线哥”演示了该项功能。
“秀场”功能采取图像分割技术,配合360度全景动态素材,可以将人物置身于虚拟场景,增加创作表情时的场景感,用户提供了更加丰富、生活的表达方式。
同时,百度输入法AI探索版开辟了“表情秀”社区,用户可以把自制好玩的AR表情直接分享到社区,被点赞最多的表情制作者会被给予“表情帝”的封号,并会阶段性给予奖励。目前“表情秀”社区已经有多个明星、网红、以及民间高手入驻。
新探索:推出“凌空手写”功能
发布会现场,蔡玉婷介绍了一款百度自主研发推出的“炫酷”功能——凌空手写。雷锋网编辑现场观察到,工作人员在没有任何实体触控点的空中用手指写出了“凌空手写”几个字,接着,又将主持人张绍刚的名字也打了出来。
据介绍,凌空手写是一种全新的文字识别技术,区别于其它正在实验室中的类似技术,它不需要特殊的手写笔,也不需要类似深度摄像头或多目摄像头等硬件支持。只需要最普通的 RGB 摄像头就可以完美支持。
凌空手写采用双神经网络模型的方案:一个是基于灰度图的指尖跟踪模型,另一个是基于多方向特征文字识别模型。
此外,研发团队发现锯齿和连笔在三维空间的手写识别中对识别率影响较大,于是对抗锯齿和连笔消除算法进行了大量优化工作,在多种模型算法的共同加持下,保证了最终识别结果的连续及稳定,整体上接近触屏手写方式的顺滑、流畅,目前整体识别率已达到大规模应用的要求。
目前,百度输入法已经与小天才/小寻手表达成了合作,会输出“凌空手写”能力给智能手表使用。百度输入法AI探索版也增加了该功能,只需说出“小度小度,打开凌空手写”就能开启该功能。
百度海外输入法:推出三大创新功能
雷锋网注:百度海外输入法产品负责人 姜峰
发布会现场,百度海外输入法产品负责人姜锋介绍了海外输入法市场最新进展和三大技术创新。
据介绍,截至目前,百度海外输入法已经扩充到了120门语言,并在全球190多个国家和地区分发。近两年,百度在语音技术上持续发力,陆续上线了日语、英语、印地语、印英混输、西语识别等,并在日本、美国、印度、印尼、泰国、新加坡等地布局了本地团队。现在全球安装量达到一亿,在美国GP商店输入法品类排名第一。
百度海外输入法围绕海外市场痛点做出三大技术创新:
-
智能语音混输:为了适应某些国家语言混用的特点,百度输入法推出本地语言和英语混输的功能,满足各个国家日常交流需要。
-
智能推荐:为了解决场景化的问题,百度海外输入法提供智能推荐功能;除了在基础输入层面的技术突破,百度海外输入法基于百度自然语言处理能力,在智能推荐上做了更多的探索,比如表情预测。
-
AR emoji:百度海外输入法基于人脸识别技术为海外的安卓手机用户提供3D AR表情功能。
同时,百度海外输入法与 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等知名 IP 进行了合作。
雷锋网总结
2018年以来,三大输入法都纷纷打出了AI牌——王海峰前面提到,百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上;搜狗 CEO 王小川也表示将 AI 赋能升级输入法列为搜狗 2018 年度 AI 战略之一,并且输入法不止可以打字,还将承载信息获取和流量分发;科大讯飞最新发布的输入法版本也主打AI语音输入。
语音交互目前已经被行业内普遍视为下一个互联网超级入口,而输入法又具备高频次、强导流、全场景使用的产品优势,AI语音输入,显然已经成为头部厂商对决博弈的新战场,雷锋网曾经在 《输入法都打AI牌的年代,讯飞的先发优势还在不在?》 一文中提到过,目前输入法市场格局形成了一超多强的局面,搜狗输入法目前市场份额位列第一;百度输入法借AI之力奋起直追;讯飞等输入法也在不断差异化,努力加强个性化特色功能。
目前来看,百度发布的新语音识别模型在技术上取得了非常大的突破,而其推出的各种好玩炫酷的个性化功能也有利于俘获90后、00后等年轻一代用户的喜爱,但搜狗和讯飞在语音识别领域的积累、在整体输入法和语音输入市场占有率方面的优势也对百度输入法造成了强有力的竞争,未来的市场格局如何,仍需市场进一步检验。
相关文章:
百度输入法 8.0 版本上线,王海峰称其是“百度 AI 的桥头堡”
在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?
。