阿里云初敏:数据是语音识别最大挑战
阿里云iDST技术总监初敏
凤凰科技讯 12月22日消息,昨日,环球网Global Tech智能起源世界大会在北京召开。期间,阿里云iDST技术总监初敏接受了媒体群访,其围绕阿里云的语音转化技术进行了分享。
初敏表示,阿里云基本用两年的时间就做到别人十几年二十年积累的水平,并且目前肯定在TOP10水平里面。其认为,“这个行业非要说谁是第一,并没有意义,而是谁能把真正的场景做出来。”
在活动现场,初敏展示了阿里云的语音实时转化技术,她告诉记者,这种语音的转写,最开始在公司内部年会上做,后来到云栖大会上做,未来,她更关心的是能否帮助合作伙伴在任何一个场景下都能完成,真正的使用起来。
初敏介绍说,像这种语音实时识别转化,如果从算法上讲,是做了一个双向神经网络结构,是一个序列的结构,所谓双向,从左往右看的同时还从右往左看,复杂度高,学术上有人做,没有在工业界上用,认为实时性不够好。
“但我们也做了,比如反向看,意味着我得讲到那儿才能反向看到,这就有延迟。”初敏表示,阿里云最近做了一些新的技术,计算速度至少快了三倍,意味着在一台都要到了退役服务年龄的服务器上也能跑起来,并发度很高。“这些都是我们(阿里云)的强项。”
但是,这种语音识别转化在某些专业行业领域还需要进一步的机器训练。初敏坦言,如果讲演的人是医疗领域,我估计肯定不行,我们今天没有用医疗语音训练它,不是做不到,而是没有训练而已。
初敏还举例说道,“像在法院的时候也有这个问题,庭审做不准就是因为人的名字,说到的名字不知道是哪个字,这个怎么办?我们动态给了一个热词表,开庭前输入基本信息,那我就很快学会,线上就能动态加载进去,就能用上这些词,而且准确率特别准。实际上我们会花很多精力做类似这样的事情,使最后的效果比较准。”
当被问及是否考虑将这种语音识别技术推出消费级产品时,初敏表示,最开始做确实不是to C的,不过最近也想做一个应用,可能几个月就能出来,是面向记者的。
初敏接着说道:“但不能期望太高,语音这个和录音条件有关,和设备有关,设备上还有压缩率码率各种因素,条件可控的情况下可以做得很好。所以我们也在想给大家建议什么样的设备,得一系列条件控制好了,识别转化才能很好。如果拿个手机放中间录音然后两个人开始聊,这个难度大一点。”
“我们甚至还和某些厂商和YunOS厂商合作,比如要做一个高端手机,手机上就是多麦克的,那可能就能做得很好。我今天比较担心媒体上看到的各种声称什么97%、98%,这是我害怕的,看我刚才的识别也是很准的,可是这不是说这个问题解决了,还有很多场景其实并不,我们要看的是怎么能在各个场景做好。”初敏表示
谈及未来的挑战,初敏称,数据是最大的挑战,今天所有的人工智能其实多是从数据中学习,从数据中学习人看不出明显的规律,不能用语言描述起来,但是它是存在着一种隐性的影射关系,深度学习最大的能力就是把这个关系影射好,但是如果数据是偏的,就会完全被数据误导了。