语音识别领域的GitHub:Wit.ai让每个公司拥有自己的“Siri”

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

即便对 苹果Google 这样的公司来说,语音识别也很难,两家公司都收集了大量实时语音数据,帮助开发 Siri和 Google Now的算法,但效果不尽如人意。 对小公司来说,打造语音识别应用就更加困难了,而且它们往往无法收集到大量的真实语音数据。而这就是 Alexandre Lebrun的工作。

他创办的 Wit.ai能将开发者的语音样本集合起来,帮助开发语音及自然语言识别系统, Lebrun认为他们的成果在尝试和广度上能与 苹果 和 Google一较高下。这一平台也反映了一种趋势,即随着无屏幕的 可穿戴设备 的兴趣,越来越多的开发者会使用语音交互技术。

目前, Wit.ai已经吸引了数千开发者,而本周三它在种子轮中 融资 了300万美元。

发现问题

事实上,Wit.ai脱胎于Lebrun之前创立的公司VirtuOz,该公司专为AT&T等公司开发语音识别系统。但在工作中,Lebrun发现每开发一个新系统,一切都要重新开始。 对每一个项目,他们都要收集新的语音样本以训练系统。虽然各项目的语音指令集有重叠的部分,但 VirtuOz无法将一位客户的样本用于另一位客户项目。

结果是,语音识别效果并不完美,在体验上也十分糟糕。更重要的是,由于语音识别系统的设置费用相当高,服务商都不会解决小公司或开发者的需求。

去年, Lebrun将VirtuOz卖给了开发出Siri的语音识别公司Nuance,然后创立了Wit.ai。

如何运作?

一般而言,语音识别系统的开发会从“语法”(想要计算机识别的语句的集合)开始,然后开发者会使用尽可能多的语句发音样本“训练”计算机,让其识别语法。由于用户指令各异,同一需求有多种表达方式,所以语法要尽可能多。

Wit.ai所做的是让公司共享语法和训练数据,就像GitHub让软件开发者共享代码一样。开发者能对 GitHub上的代码进行更改,而Wit.ai上的语法也能用于开发不同的应用。

Wit.ai的商业模式也与 GitHub相同,用户会免费分享数据。不过为了保护隐私,用于训练系统的音频记录不能共享,而不愿共享语法或数据的公司可以付费使用该公司服务。

免费

与Wit.ai一样,现在有越来越多的公司和项目能帮助开发者在各自的应用上布署语音识别系统,其中有开源项目 Julius和CMU Sphinx,也有Google的语音转文本服务。 Lebrun希望通过免费获取更多的语法和训练数据,最终根据这些数据开发的系统能与苹果及Google匹敌。

Wit.ai的一个问题是,所有音频都要通过互联网传输到公司的服务器,这意味着使用时会出现延时,甚至隐私问题。不过,Lebrun表现,现在已经有了一个混合版本,能直接在客户端工作。

via wired

随意打赏

提交建议
微信扫一扫,分享给好友吧。