老罗说科大讯飞的词错率只有3%，微软表示自己 5.9% 的词错率已经媲美人类了

36氪 • 8年前扫码分享

昨天锤子发布会捧红了国内一家语音识别公司——科大讯飞，在锤子发布会上，老罗表示，科大讯飞的语音识别正确率可以达到 97%，换句话说，也就是词错率为 3%。然而有趣的是，大约在一个月之前，微软公司表示，在行业标准的 Switchboard 语音识别基准测试中，他们的语音识别词错率达到了 6.3%，当时已经是业界最低的记录。

而就在昨天，也就是老罗召开锤子发布会的同一天，微软人工智能研究分部的工程师团队发表了一项研究成果，宣布已经将词错率指标数据降到了 5.9%，几乎可以和人类相媲美了。

微软首席语音科学家黄学东博士说道：

我们已经实现了和人类同等的语音识别水平，这是一个历史性的突破。

在积累了数十年的测试经验之后，微软公司只用了一个月左右的时间就将词错率降低了 0.4%，这显然是个非常了不起的成绩，更重要的是，这项技术可以广泛应用在微软旗下多个产品之中，比如数字语音助手微软小娜（Cortana）、Xbox、以及 Windows 操作系统内。

为了达到预期的语音识别准确度，微软公司的研究人员部署了深度神经网络，用于存储海量数据（这些数据集合是用来训练神经网络的），帮助系统识别人类语音输入类型。此外，声音和图片数据也被用于训练语音识别深度神经网络，也使得这些存储数据能够被更高效地利用。

事实上，微软研究人员希望语音识别技术变得更加完美，在这种情况下，意味着其表现要和人类一样好，但从另一个角度来看，这种完美也存在着不完美，因为人类本身在语音表达上就无法做到完美。

未来，微软语音识别技术研发团队希望再进一步提升识别准确度，降低词错率，确保他们的语音识别服务在现实世界中有更好的表现。事实上，微软公司已经考虑到了人们在现实环境中的各种不确定性，包括嘈杂的餐厅、拥挤的街道、以及周围刮起很强的风。不仅如此，该团队还表示，他们并不会仅局限在语音识别这个范围之内，而且希望让机器可以更好地去理解人们所说的话。

现在，我们距离让机器解读人类语音表达的深层含义似乎还有很长一段距离，虽然我们依然在尝试了解计算机，但未来，计算机肯定会变得越来越了解人类。