百度推出AI音频转录工具SwiftScribe,让你20分钟能搞定1小时的录音 | 钛快讯
钛媒体快讯 | 百度美国于昨天推出转录工具SwiftScribe,一个利用人工智能,让用户能快速将音频快速转成文字的免费网页工具。
百度在近年一直在持续改善其新一代深度语音识别系统DeepSpeech2。DeepSpeech2系统由百度硅谷人工智能实验室(SVAIL)研发,并在去年被麻省理工科技评论评为2016年十大突破技术。
“百度在语音技术领域不断进步,语音接口更为实用和有效。用户可以愈加便利地与身边的设备进行互动。百度的深度语音识别系统(DeepSpeech2)包含了一个非常庞大的神经网络,引入了数以百万计的转录语音。有时它在识别汉语语音片段方面,要比人为识别更加准确。”麻省理工科技评论写道。
百度在去年也推出了应用DeepSpeech2的安卓输入法应用TalkType,让用户能够快速语音输入文字。国际科技巨头如微软、亚马逊、苹果以及谷歌同样在语音识别领域投入大量精力,但在长段语音识别转录上仍不及百度。
SwiftScribe支持上传转录wav和mp3格式的音频文件。一段30秒左右的音频转录成文本时间大概为10秒,而一段1分钟左右的文件大致需要30秒的转录时间。SwiftScribe最大支持用户上传1小时长的音频文件,1小时的音频则需要20分钟左右的处理时间,百度的项目管理人武田介绍道。
但SwiftScribe的功能目前还没有很完善,在转录成功后,用户还需自行对文本进行编辑。SwiftScribe转录出来的文本是不带标点符号的,用户需要自行断句、并对可能出现的错误进行更正、以及编辑英文单词大小写等。不过SwiftScribe同样提供变速阅读工具,让用户在校对编辑时可以调慢播放速度。
图片来源:VentureBeat
SwiftScribe的开发灵感源于武田在加州大学圣芭芭拉分校读研期间的采访经历。
“我的母语不是英语,要整理一段1小时录音对我来说要花上10个小时。而对于专业人士来说,时间也不短,大概要6小时,” 武田说道。
武田和同事Nina Wei在跟几个速记员交流过后也为开发SwiftScribe找到了不少灵感。武田的团队认为SwiftScribe能给速记员带来1.67倍的效率提升,能缩短40%的工作时间,这也意味着他们能花同样的时间赚到更多的钱。
显而易见,SwiftScribe并不只是单单面向于速记员,它基于网页,并免费为用户提供服务,对于其他如记者等需要经常整理音频文件的职业,SwiftScribe可谓是提高效率的神器。
“我们希望在未来能够将其商业化,” 武田说道,透露在技术成熟后增加收费服务的打算。
武田的团队计划未来给SwiftScribe加入音频自动转录文字、为视频上字幕等功能,以及增加支持文件格式,并加入自动添加标点符号的功能。
(本文首发钛媒体,综合自VentureBeat、MIT Technology Review等外网 。Garrett/编译)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App