智能语音助手背后,哈曼瞄准了麦克风阵列的生意
智能语音助手不是什么新鲜的事物,但它的载体智能音箱成为智能家居的爆品不过是近两年的事情,这得益于两个方面,首先是人工智能的发展诞生了实际的应用场景,其次则是声学识别、语音识别等技术的逐渐成熟。
无论是音箱还是其他消费电子产品,凡是涉及到语音交互的环节,都离不开对声音的采集和提取,具体到智能音箱中,这是一种被称为“麦克风阵列”的技术,同时几乎也是Amazon Echo 和 Google Home 此类产品唯一涉及到硬件层面的创新。
刚刚过去的CES ASIA期间,哈曼发布了全新的远程语音识别解决方案 SONIQUE™,它将提供有别于传统手动输入的语音输入技术,瞄准的正是消费类语音电子产品对于麦克风阵列的需求。
从近场识别到远场识别
几年前,语音交互最典型的代表就是以苹果Siri为代表的智能手机,在这个相对简单且识别距离较近的场景,麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。
但是一旦麦克风距离较远,收音环境就会受到大量噪声、混音甚至反射带来的干扰,导致对声音信号采集和提取的准确率大幅下降,从而影响语音识别的准确率。
“iPhone配备了号称目前世上最好的麦克风,但是如果开扬声器从2米外去打电话,基本上除了噪声什么也听不见”,哈曼嵌入式音响事业部负责人刘苍松认为,“当用户逐渐从手机开始切换到类似Echo等的时候,实际上麦克风的工作环境也变了。”
消费级麦克风阵列的兴起伴随着智能语音助手的大范围应用,最主要的变化其实是用户场景的迁移,这也推动了麦克风阵列领域从近场识别到远场识别的技术大跃进,一旦远场语音交互成为主流,那将和触屏的方式产生真正的差异化。
哈曼嵌入式音响事业部副总裁兼总经理---刘苍松先生
哈曼嵌入式音响事业部负责人刘苍松向钛媒体记者介绍,“语音识别从近场识别到远场识别跨越的难度非常大,比如从识别声音的距离来看,从2米到3米距离提升50%,但是成本可能增加了两倍,越往上越成几何级增长,是不成比例的,就像发烧音箱一样,10万的音响可能只比1万的音响音质提升了一点点。”
哈曼的多种解决方案
麦克风阵列有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,所以它被越来越广泛地用到智能音箱乃至其他需要语音交互的场景下。
不过从技术角度看,麦克风数量不同导致它所具备的特征有所差异,也就诞生了多种应用,哈曼嵌入式音响事业部负责人刘苍松表示,根据特定的用户需求,SONIQUE™ 可提供三种不同的解决方案。
第一种为双麦语音解决方案。主要面向以家用电子为主的消费类电子应用,可以灵活地应用于消费类音响,电视机顶盒以及网络路由器等设备,双麦配置可支持最远 4 米的高清远距离拾音需求。
第二种配置为四麦语音解决方案。主要面向高端家用电子产品、企业级应用以及机器人,可支持最远 6 米的高清远距离拾音需求。
第三种为七麦语音解决方案。主要面向对性能要求高的企业级应用和机器人。通过搭配系列音效算法,七麦语音解决方案可支持最远 8 米的高清远距离拾音需求。
双麦、多麦,哪个更主流
谈及智能音箱,不得不提 Amazon Echo 和 Google Home 这两款产品,如果单纯从硬件层面来看,二者好像都没有什么可炫耀的资本,唯一不同是 Amazon Echo 采用的是6+1环形麦克风阵列,而Google Home 只采用了2个麦克风阵列。
Harman Kardon Invoke
在前不久的微软Build大会上,微软发布了与哈曼合作的智能音箱 Harman Kardon Invoke,作为对标亚马逊和谷歌的产品,Harman Kardon Invoke 同样可以实现播放音乐、管理日历和活动、设置提醒、检查流量等功能,区别在于 Harman Kardon Invoke 采用的是哈曼 SONIQUE™ 七麦的解决方案。
双麦克和多麦克阵列的一个主要区别,是成本不同。双麦克风阵列的 Google Home 售价129美元,采用的是6+1环形麦克风阵列 Amazon Echo售价为179.99美元,两者相差了50美金。
但同时哈曼嵌入式音响事业部负责人刘苍松也解释道,“其实成本并不是单纯由麦克风的数量决定,实际每个麦克风就一两块人民币,多麦克风阵列的难度在于体系更复杂,需要花费大量时间在材料、工艺、软件上去调教,是软硬件一体化的系统工程。”
对于目前的智能语音类产品来说,也不存在哪个更主流的问题,而是更强调应用场景。“双麦克风阵列产品应用的场景相对简单,命令也不复杂,对成本要求低,比如电灯开关、窗帘开关,而类似Echo这样的产品则是对识别的准确性要求高,但在数量上都达不到双麦克的出货量”,刘苍松表示。
做人工智能设备的耳朵和嘴巴
哈曼主要为汽车市场、大众消费市场以及专业市场设计、生产和提供各类音响与信息娱乐系统解决方案及软件服务。哈曼嵌入式音响事业部隶属于哈曼四大业务群之一的消费类音响,主要为消费类企业用户提供全方位的音响解决方案,为B2B性质的部门。
哈曼嵌入式音响事业部负责人刘苍松也表示,“哈曼在麦克风领域有超过60年的历史,几十年前唱片音乐流行的时候,世界上一级的录音室都是哈曼的设备,哈曼现在做智能语音麦克风阵列的技术,是水到渠成自然而然的技术积累而做的一个产品。”
对于在这个领域的定位,哈曼也同样十分清晰,刘苍松给钛媒体记者举了一个十分形象的例子,“哈曼的角色就像是人工智能设备的耳朵和嘴巴,当你对智能音箱说‘我饿了’,这个声音会通过麦克风阵列进行降噪并收集,哈曼的解决方案负责收集用户的输入结果,主要是前端声音的采集和反馈时候声音的表达。”
哈曼的麦克风阵列担当了智能语音入口的性质,“至于人工智能如何思考,自然语言理解、搜索结果反馈等下一步的服务提供则是由那些互联网公司提供。”刘苍松表示道。
但这个过程中不能忽略的是,语音识别率是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果,为此哈曼进行了非常广泛的合作。
截至目前,SONIQUE™ 远程语音识别解决方案已经能够支持开源的主流语音引擎集成,包括亚马逊 Alexa 以及微软Cortana,并预计在近期内与更多语音引擎厂商开展合作,列表中的名单包括百度、科大讯飞、苹果 Siri,并且还在持续增加。(本文首发钛媒体,记者/李玉鹏)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App