百度推出AI音频转录网页SwiftScribe，30秒音频转录文本只需10秒

猎云网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

“10年前，语音识别的错误率高达80%，如今，我们将错误率从80%之高降到了仅有8%”，百度机器学习团队研究科学家Carl Case曾在接受媒体采访时表示，“如果我们在未来两三年内一直保持这种态势，我认为我们有可能做到用普通手机达到与人工水平相当的语音转录能力。”

虽然利用手机进行转录的工具还未出现，但百度硅谷研究院却在近日推出了一款能将音频快速转成文字的免费网页工具SwiftScribe。

百度首席科学家吴恩达表示，

百度推出AI音频转录网页SwiftScribe，30秒音频转录文本只需10秒

SwiftScribe的核心技术是基于百度2015年年底推出的语音识别产品DeepSpeech2。其神经网络使用标注语音数据训练了数千小时之后，学会了将声音与特定的词和短语对应起来。

除了先进的 ASR 技术，百度还设计了直观的快捷键和创新性的人机交互以解决间断问题，这是用户在转录时面临的最大麻烦之一。从语音识别系统到用户界面，百度 SVAIL 开发了 SwiftScribe 的每一个组件。

这种方法的大优势是当用户转录和编辑时，系统同时也在自我学习和提高。这种端到端的训练也使SwiftScribe从市面上其他产品中脱颖而出。

据官方资料显示，2014年底，吴恩达及团队发布了第一代深度语音识别系统Deep Speech，系统采用了端对端的深度学习技术，当时实现了提高嘈杂环境下的英语识别准确率，实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。

2015年8月，百度研究院新增了汉语的识别，准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。同年9月，百度世界大会上，吴恩达也在期间展示了新一代的百度语音识别技术，验证在较为嘈杂的情况下，机器识别已经超过人类。

2015年底，百度研究院又发布了论文推出Deep Speech2，它能够通过深度学习网络识别嘈杂环境下的不同语言，所应用的HPC技术将识别速度提升了7倍。2016年，百度推出了应用DeepSpeech2的安卓输入法应用TalkType，让用户能够快速语音输入文字。目前，百度已在今年2月将HPC技术成功应用于深度学习中。

百度推出AI音频转录网页SwiftScribe，30秒音频转录文本只需10秒