一线 | 对话搜狗副总裁吴滔:翻译产品正在快速迭代
腾讯《一线》作者 孙宏超
在近日举行的2018CES Asia亚洲消费电子展上,搜狗展台的录音翻译笔、搜狗旅行翻译宝两款产品受到了业内人士的广泛关注。
今年5月初,搜狗公司推出的录音翻译笔,只需要蓝牙就可以和手机APP连接,随时说话,随时翻译。据搜狗公司介绍,通过它所搭载的深度神经网络机器翻译,该款录音翻译笔不仅支持录音速记、对话翻译,还支持同声传译功能,准确度高达90%,录音速记达到了400字/分钟的识别速度。而旅行翻译宝可以离线翻译、拍照翻译及支持42种语言互译,覆盖全球200多个国家。
在亚洲消费电子展上,《一线》等媒体就此采访了搜狗公司副总裁、IoT事业部负责人吴滔。在2017年就任搜狗IoT事业部负责人后,吴滔主导搜狗AI翻译的硬件研发,将搜狗的AI技术落地为硬件产品。
在吴滔看来,没有做智能音箱而选择翻译类产品有两方面原因:智能音箱的主要需求是内容消费,与内容资源丰富的公司相比,搜狗在内容方面的优势并不明显;搜狗在语言类领域有常年积累技术储备,选择“语言”为核心的AI战略是相对“专注”的。
最后,吴滔也表示:“随着智能硬件产业链不断成熟,效率提升,成本也会随之下降;另外,随着技术的快速迭代,我们的产品也在快速迭代。”
以下为部分对话实录(有删减):
媒体:翻译笔和翻译宝的用户池是否有些浅?
吴滔:这个产品是一个相对比较新的品类。
一方面是因为AI在翻译上的技术性突破是最近一两年才开始产生的,这意味着其实有很多受众还不知道有这样的产品,拿了这个产品用,还是觉得这个挺神奇的,他自己都没有想到技术能够解决问题,包括我们放在展台上,很多人都过来试用。
市场普及的过程,就像过去我们看到很多消费类电子产品,他们花了甚至五到八年的时间才会把市场普及起来,从大的市场角度来讲,中国每年出境的人次很高,所以从未来角度来讲,我们的受众不是窄众,从现在的角度来讲,大家往外走还是偏商务的,自由行是有基础语言能力的人。
在做硬件产品的时候,我个人的观点是:要么是一个独立于手机使用的产品,它在很多的场景里面可以完全独立使用,更方便的交互,而且有独立的计算能力。要不就依托于手机,作为计算的平台和载体来做这件事情,搜狗录音翻译笔是后者,它要做的一些事情,就是能够去互补一些手机上的不足,我们知道手机已经可以去做录音了,但很多人还要买录音笔,因为手机是能够抑制远场强化近场,而像录音笔和翻译笔其实是反的,我们在一定能力上能够做到远场拾音能力,在上面做了一些麦克风矩阵的算法。
翻译笔大量使用的是媒体,我和媒体沟通比较多,很多媒体在发布会很急迫地问我,你这个事靠谱不靠谱。因为大家都知道整理录音是非常痛苦的事情,原来可能有第三方外包公司,如果能够直接通过技术把录音整理出来,甚至通过技术把一些外访帮你翻译过来,这样会极大地提高大家的生产效率,所以这个产品的主要受众是媒体和学生。
现在很多学生上课都不太听讲或者不太爱记笔记,都是把这样的产品往外一搁,要用的时候找同学对一对,实在没有看懂笔记听一下,通过这些方面我们可以做很多事情。一个是每个学生买一个放在那儿,还有一个是给老师配一个,老师就可以通过云端甚至微信的小程序可以把他的讲义分享给同学,这是目前主要的人群。
还有一些作家,他们有一些所谓的灵感记录,今天有一个想法,不可能稿子一下子就写,可能先讲一遍,看看思路是不是通,再做整理。
媒体:除了断句,这个翻译笔目前还有哪些难点是你们没有解决的?
吴滔:第一个从本身这个硬件产品来讲,其实有好几个难点在里面,一方面来讲它的麦克风矩阵拾音是个难点,现在我们上下有两个拾音的矩阵,但现在因为整个产业里大量的做矩阵的,大家听到了什么6+1、7+1甚至有8+2环麦的矩阵,它的应用场景是音箱。音箱那种场景是持续通电的,所以它不在意你的功耗的大小,而在这样一个小的随身产品上的话,它的电池是很小的,所以我们没有办法采取那种很大的矩阵,现在存在双麦做这件事情。所以,第一在拾音上,包括拾音的DSP的算法上面,因为人耳听着没问题,但机器听着和我们是不一样的,这是第一个难点,针对矩阵算法的调试和适配。
第二个难点,因为我们现在所有的类似于这样的一个设备,它是通过蓝牙传输的,主要的一个问题,比如你要用AirPods,你会发现什么问题?比如你在机场的时候就不好使了,它会时断时续,因为它受干扰很容易,在这样一个大的会场的话,你的距离稍远一些,或者有些干扰源,它会影响数据的传输,因为我们所有的数据其实要通过它传到手机上来到云端处理的,所以这个延迟是一个很大的挑战。一旦你的网络信号有波动或者蓝牙有干扰的时候,你的体验就会比较差。
媒体:换成5G会不会改进?
吴滔:5G当然会改进很多,因为带宽很高,但5G的时间不好说,包括设备、包括手机的适配,这是从硬件上的一些约束。从软件刚才讲到了,一是算法的问题,毕竟在大规模的混合复杂场景中的训练语料全世界都还是稀缺的,所以在这方面优化的话需要挺长的时间迭代。最早在2011年我们语音输入法上线的时候准确率还不到80%,但还是挺粗糙的,但也就一两年的时间,现在我们在手机上这种近场的时间已经达到97%以上,只要你是普通话说的,不是特别标准的普通话都没有问题,所以这个技术迭代会比较快。
媒体:现在产品推出是不是有点早?
吴滔:我们也在考虑这件事情,内部的版本叫做早鸟版。其实它不是一个我们能够去等待技术成熟的过程,这是一个技术要和应用场景和用户互相磨合迭代的过程,就像我们做互联网软件,大家都要想一些办法,你开始出了一个产品相对会粗糙一些,但很快会迭代起来。我们二代的笔已经在设计了,年底就会推出,针对刚才的那些问题我们会更小型化,这样能够方便真的是能够别在身上,佩戴在身上,针对刚才我们讲的那些问题都有一些针对性的优化。早期我们还把一些翻译的概念放在里面,但后来我们发现受众还是觉得录音转写这件事情是最重大的,所以我们觉得专注一些,把这个点做得足够好,让垂直类的用户慢慢有好的体验,这是最重要的。我们现在也快速的迭代这个产品。
媒体:笔本身是支持系统升级,第二代的笔出来之后,这个笔还能继续享受吗?
吴滔:软件的算法是OK的,但硬件的东西,你的矩阵、麦克风、蓝牙这些没有办法,这也是我们做硬件产品比较尴尬的一点。
因为现在一般的之前买的比如四、五百元的录音笔已经有话筒,线路输入,现在参加的一些活动,比如他们有同传,其实同传的耳机是直接可以插到录音笔上做录音的,二代的时候可以考虑增加话筒输入的频道,这样的话起码差不多像是在总结说话那样。
媒体:为什么搜狗没有选择智能音响而是语音翻译和速录?
吴滔:一是从音箱核心的诉求来讲,归根到底不是家里的遥控器,也不是说一定要做智能问答,核心还是内容消费。像alexa70%还是围绕着内容消费做的,因为外国的朋友喜欢听音乐,家里还有背景音的设备。中国可能会慢慢养成,比如90后就是戴着耳机的一代人了,我们老一代的可能就没有听音乐的习惯。但在内容消费上,搜狗还有较大提升的空间,这是第一点。
第二,整个音箱市场现在已经很难受了,大家看到音箱已经从早期一千左右的音箱,到现在已经是几十块钱的音箱,所有的巨头都开始高额的来去补贴战场。搜狗作为一个创新型企业,我觉得这个是现在不适合我们做的。我们没有核心优势,我们也没有办法去真正all in来去砸这件事情,好像很难。搜狗的核心战略是围绕着语言来做的,原来大家讲一个是输入法,一个是搜索。表达和获取信息,都是围绕着语言转的,所以到现在为止,搜狗还是比较专注的,我们所有的能力还是围绕着语言,把输入法变成对话,就是我们现在讲的NLP对话。原来是你打什么字,我猜你要打什么字,我告诉你,现在你不用告诉我你想干吗,我通过上下文就给你个建议,说这么说更好,把它变成选择题了,原来是填空题。
媒体:有什么场景是我一定要带着额外加一个硬件产品,不能减轻我的行李呢?
吴滔:这个问题是我们被经常问到的,你花一千多块钱不如买一个手机呢。这个和手机APP的比较简单分为几个部分来讲。
第一个部分,网络不好使,除非你在本地买了Wi-Fi之类的,在离线这件事情上手机有壁垒的,我们在里面配了很高配的芯片在里面,也就是说很多手机跑这个运算是跑不起来的;第二,整个机器所有的资源都用来跑翻译了,对内存和计算的要求都非常大,在低端的手机里,基本上你开了这个应用,你的手机就被卡死了,所以现阶段手机不能完全替代它。
媒体:除了翻译宝和翻译笔,还有其他的规划么?
吴滔:还有好几个。本身这两个产品会迭代,迭代的玩法,因为这个还是初代的产品。同时针对场景我们会做更精准化的工作,在其他的一些场景中,我们也会突出自己的一些新的智能硬件的产品,现在已经在开发和研发过程中了,现在因为保密的问题,还暂时不能透露。
媒体:目前影响用户普及率的原因和影响因素有哪些?
吴滔:售价是一个因素,因为现在这个产品研发成本也确实比较高,硬件基本上都还不是针对这个品类的硬件,我们都是从手机的一些配件和其他的配件里攒一个这样的设备出来。等到产业链迭代起来以后,效率提上去之后,成本就会降下来。
第二是用户的认知。从长远的角度来讲,我们做产品的理念很简单,就是面向未来,我们看到五年后在这样的一个场景中,应该用什么样的产品来解决这样的问题,我们尽量在今天把这样的产品找出来,慢慢朝着那个方向去迭代。
媒体:我们这款翻译笔会量产么?硬件本身的成本如何?
吴滔:现在录音翻译笔已经量产了,整体成本来讲还是挺高的。现在专用的矩阵、专用的芯片、电池的成本都还挺高的。因为它不是一个大产业化的产品,全部需要我们去定制。做IT的都知道,如果做手机产品,大家都用标准件成本就会很低,但是定制件的话成本就会很高。所以现在成本不是一个很优的状况。但是随着这个产业快速发展,我预期芯片厂商现在也快速的去迭代,因为有很多芯片厂商要找我们做一些芯片的调研方案,快速能够迭代,我预计到明年整体的成本就会下来很多。