阿里云初敏：数据是语音识别最大挑战

凤凰科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

阿里云初敏：数据是语音识别最大挑战

阿里云iDST技术总监初敏

凤凰科技讯 12月22日消息，昨日，环球网Global Tech智能起源世界大会在北京召开。期间，阿里云iDST技术总监初敏接受了媒体群访，其围绕阿里云的语音转化技术进行了分享。

初敏表示，阿里云基本用两年的时间就做到别人十几年二十年积累的水平，并且目前肯定在TOP10水平里面。其认为，“这个行业非要说谁是第一，并没有意义，而是谁能把真正的场景做出来。”

在活动现场，初敏展示了阿里云的语音实时转化技术，她告诉记者，这种语音的转写，最开始在公司内部年会上做，后来到云栖大会上做，未来，她更关心的是能否帮助合作伙伴在任何一个场景下都能完成，真正的使用起来。

初敏介绍说，像这种语音实时识别转化，如果从算法上讲，是做了一个双向神经网络结构，是一个序列的结构，所谓双向，从左往右看的同时还从右往左看，复杂度高，学术上有人做，没有在工业界上用，认为实时性不够好。

“但我们也做了，比如反向看，意味着我得讲到那儿才能反向看到，这就有延迟。”初敏表示，阿里云最近做了一些新的技术，计算速度至少快了三倍，意味着在一台都要到了退役服务年龄的服务器上也能跑起来，并发度很高。“这些都是我们（阿里云）的强项。”

但是，这种语音识别转化在某些专业行业领域还需要进一步的机器训练。初敏坦言，如果讲演的人是医疗领域，我估计肯定不行，我们今天没有用医疗语音训练它，不是做不到，而是没有训练而已。

初敏还举例说道，“像在法院的时候也有这个问题，庭审做不准就是因为人的名字，说到的名字不知道是哪个字，这个怎么办？我们动态给了一个热词表，开庭前输入基本信息，那我就很快学会，线上就能动态加载进去，就能用上这些词，而且准确率特别准。实际上我们会花很多精力做类似这样的事情，使最后的效果比较准。”

当被问及是否考虑将这种语音识别技术推出消费级产品时，初敏表示，最开始做确实不是to C的，不过最近也想做一个应用，可能几个月就能出来，是面向记者的。

初敏接着说道：“但不能期望太高，语音这个和录音条件有关，和设备有关，设备上还有压缩率码率各种因素，条件可控的情况下可以做得很好。所以我们也在想给大家建议什么样的设备，得一系列条件控制好了，识别转化才能很好。如果拿个手机放中间录音然后两个人开始聊，这个难度大一点。”

“我们甚至还和某些厂商和YunOS厂商合作，比如要做一个高端手机，手机上就是多麦克的，那可能就能做得很好。我今天比较担心媒体上看到的各种声称什么97%、98%，这是我害怕的，看我刚才的识别也是很准的，可是这不是说这个问题解决了，还有很多场景其实并不，我们要看的是怎么能在各个场景做好。”初敏表示

谈及未来的挑战，初敏称，数据是最大的挑战，今天所有的人工智能其实多是从数据中学习，从数据中学习人看不出明显的规律，不能用语言描述起来，但是它是存在着一种隐性的影射关系，深度学习最大的能力就是把这个关系影射好，但是如果数据是偏的，就会完全被数据误导了。