揭秘Facebook语音识别项目 蕴含无限可能和机遇

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  


腾讯科技讯 8月23日消息,据外媒报道,Facebook加入语音计算革命大潮的速度有点儿慢。它还没有自己的语音助手,智能音箱仍在开发中,Instagram等诸多应用程序也没有完全集成音频通信功能。但从Facebook代码中发现的线索以及新的专利申请来看,这一状况将发生很大变化。

开发语音功能可以让人们在家里或在旅途中使用Facebook的方式更多。据报道,Facebook即将推出的Portal智能音箱是专为方便与远方家人视频聊天而设计的,这些家人包括使用智能手机不便的老人和孩子。改进后的转录和语音-文本-语音功能可以让Messenger用户通过输入媒介连接起来,并让他们始终保持在聊天应用上,而不是返回到SMS。

但如果Facebook不尽快行动起来,它的语音项目可能会被竞争对手的喧嚣淹没。所有主要的移动硬件和操作系统制造商现在都有自己的语音助手,如苹果的Siri、亚马逊的Alexa、谷歌的Assistant以及三星Bixby,他们都在自家智能音箱上集成了语音助手。


2018年第二季度,全球智能音箱出货数据

市场研究机构Canalys估计,在2018年第二季度,Google Home的出货量为540万部,亚马逊Echo的出货量为410万部。而Strategy Analytics的数据显示,苹果HomePod起步缓慢,所占市场份额不到6%,依然落后于阿里巴巴的智能音箱。鉴于Facebook在隐私问题上的糟糕记录,可能导致潜在客户转投竞争对手。

考虑到Facebook在语音计算革命中已经落后,它需要强大的工具来解决真正的问题。下面我们来看看Facebook在语音领域取得的最新发展,以及它过去的实验如何为下一次飞跃奠定了基础。

Aloha

Facebook正在开发自己的语音识别功能,名为Aloha,它适用于Facebook和Messenger应用,同时也适用于外部硬件,比如其正在开发的视频聊天智能音箱。独立应用程序研究员Jane Manchun Wong挖掘出来的Facebook和Messenger Android应用代码,首次展示了Aloha用户界面的原型。

它的标签为“Aloha语音测试”(Aloha Voice Testing),当用户在消息线程中说话时,一个水平的蓝色条会展开并收缩,以在识别和转录文本的同时显示语音的音量。这段代码描述了该功能可与外部Wi-Fi或蓝牙设备连接。这款软件有可能同时在Facebook的硬件和软件上运行,类似于Google Assistant,它可以在手机和Google Home智能音箱上运行。

Facebook拒绝对这段视频发表评论,但其发言人表示:“我们始终在测试些新东西,今天没有什么要分享的,但我的团队几周后会联系AR/VR网站发布有关硬件方面的新闻。”目前还不清楚“硬件新闻”是否会集中在语音和Aloha或Portal上,或者仅仅是与Facebook 9月25日举行的Oculus Connect 5发布会有关。

知情人士此前曾表示,多年前,Facebook有意开发自己的语音识别软件,专门用于准确记录朋友之间的交谈方式。与我们正式称呼像亚马逊Alexa或Google Home这样的电脑化助手相比,Facebook的语音模式通常更随意、口语化、快速且充满俚语。

Jane Manchun Wong还在Facebook的代码中发现了Aloha的logo,该代码以火山图像为特色。现在可以确认,有人曾在Facebook员工的手机上看到过有类似logo的Facebook Aloha Setup聊天机器人。

如果Facebook能够解决这个问题,它可以在Messenger和网站的其他地方提供自己的转录功能,这样用户就可以跨媒介进行交流。它可能会让你在忙得不可开交或看不清屏幕时,向朋友口授评论或信息。然后,收件人可以阅读文本,而不必去听语音信息。该功能还可以用于为Facebook应用程序的语音导航提供动力,从而更好地支持免提功能。

音箱与摄像头专利

2017年8月份有报道称,Facebook的视频聊天智能音箱最初代号是Aloha,后来更名为Portal。这款售价499美元的亚马逊Echo Show竞争对手最初定于今年5月份在Facebook开发者大会F8上推出。但彭博社报道称,由于担心此举会加剧剑桥分析公司(Cambridge Analytica)引发的隐私丑闻,该产品被推迟上市。


Facebook获得的智能音箱专利

一项新的专利申请显示,Facebook早在2016年12月26日为一种立方体形状的设备申请专利时,就在考虑打造智能音箱。专利描述了由巴贝克·埃尔米赫(Baback Elmieh)、亚历山大·贾斯(Alexandre Jais)以及约翰·普罗科什-韦利(John Proksch-Whaley)发明的“音箱装置”。同年9月,Facebook收购了埃尔米赫的初创公司Nascent Objects,他现在是Facebook秘密建筑硬件实验室的技术项目负责人。

这家初创公司始终在打造模块化硬件,今年早些时候,埃尔米赫在Facebook的几个模块化摄像头项目获得了专利。Facebook一直在开发的音箱和摄像头技术可能会演变成视频聊天音箱。事实上,Facebook已经探索智能音箱技术很长时间了,而且这些专利的发明者仍在硬件实验室研究秘密项目,这强化了Facebook在语音领域有宏伟计划的观点。


Facebook获得的专利显示相机(左)和视频摄像头设计

Instagram语音信息

最后,Instagram也在向语音领域进军。Jane Manchun Wong从Instagram的Android应用程序代码中生成的截图显示,Facebook显然在开发语音短信功能Instagram Direct。这将允许你在Instagram上发声,并发送类似于步话机的音频片段,或早在2013年添加的Facebook Messenger语音信息功能。

你可以在屏幕底部的信息编排器中看到语音按钮,代码解释说“语音信息,按下并保持记录”。这款原型机是在Instagram Direct最近推出视频聊天功能后亮相的,也是通过Jane Manchun Wong的研究发现的另一个功能。Instagram发言人拒绝置评,因为尚未公开测试的新功能在代码中被发现,他们就没什么可分享的了。

漫长的探索之路

长期以来,Facebook始终在语音领域徘徊。2015年,Facebook收购了自然语言处理初创企业Wit.ai。这家公司运行着开发者平台,用于构建语音接口。不过后来,Facebook将Wit.ai并入到Messenger平台团队中,专注于开发聊天机器人。

Facebook还在2015年开始测试自动将Messenger语音片段转录为文本的功能,这可能是上述Aloha功能的基础。该公司还透露,其个人助理M可以为用户完成任务,但它只是在非常有限的用户基础上推出,后来被关闭。

2016年,Facebook的Messenger主管大卫·马库斯(David Marcus)声称,语音”并不是我们现在积极开发的工作”。但他补充道:“在某种程度上,随着我们在Messenger中开发越来越多的功能和交互,我们将开始研发语音交流和接口。”然而,消息人士透露,Facebook的秘密预言技术团队已经在探索语音机会。Facebook还开始为那些只想播放声音而不是视频的用户测试其实时音频功能。


Facebook从未放弃过语音识别努力

到2017年,Facebook为网页视频提供了自动字幕,并开发了语音搜索功能。今年,Facebook开始尝试将语音片段作为状态更新和Stories,供世界各地可能无法用母语打字的用户使用。但高管们并没有过多谈及语音计划。

Facebook设计总监卢克·伍兹(Luke Woods)曾在2017年表示:“语音搜索非常有前途,有很多令人兴奋的事情发生。我喜欢能和汽车对话,让它导航到特定的地方。这是许多潜在用例之一。这也是声音转录可以提供帮助的领域之一。”

目前还不清楚Facebook的Aloha到底会变成什么样子。它可能是Facebook智能音箱和应用的实际操作系统或语音界面及转录功能,也可能会成为像M那样功能更完备的语音助手,但也支持音频。或者,它可能成为Facebook通往其他语音生态系统的桥梁,充当Facebook的Alexa Skill或Google Assistant Action。(编译/金鹿)

随意打赏

facebook语音识别facebook登陆语音识别公司讯飞语音识别智能语音识别离线语音识别语音识别项目机遇
提交建议
微信扫一扫,分享给好友吧。