专访百度美国研究院总监:语音和人工智能的交互是大趋势
( 百度 硅谷人工智能研究院总监Adam Coates在EmTech Digital大会上发表演讲)
腾讯科技 纪振宇 发自硅谷
“百度硅谷人工智能研究院的目标是创建我们认为至少能够影响1亿人的人工智能技术。”百度硅谷人工智能研究院总监Adam Coates在本周举办的Emtech Digital大会上这样表示,在会后接受腾讯科技专访时,他表示,百度美国研究院的部分人工智能技术成果,实际上已经应用在了很多产品中。
此外,他还证实了百度即将扩大硅谷研究院规模的消息,新的办公区就在距离目前百度美国研究院不到一英里的位置。
“人数会在目前的基础上再扩大约一倍左右。”Coates说。目前,百度在美国研究院共有约200名员工。
上周,百度首席 科学 家吴恩达的突然离职,令外界对百度人工智能研究的未来发展产生新的疑问。百度方面宣布,总裁 张亚勤 ( 微博 )将任百度美国研究院董事长,负责百度在美国研发中心的关键人才吸引、品牌建设、以及美研同国内业务的战略协同等方面的事务。
Adam Coates表示,自己在百度的工作性质并不会发生变化,依然会继续此前的人工智能研究工作。在加入百度之前,他曾跟随吴恩达在斯坦福大学从事人工智能方面的博士后研究。
“在出差到中国时,给我最大的感受是所有事情的变化都非常快,”Coates说,“和硅谷的节奏完全不同。”
他表示,百度从事人工智能研究的大背景时,对于很多发展中国家来说,移动互联网的发展为人工智能时代铺平了道路。
“如果你在2017年第一次连接上互联网,那么你很可能是从移动设备上进行连接的。”Coates说。
他认为,正是基于人们互联网连接方式的改变,将使得人机交互的方式也在同时发生变化。移动和物联网将变成语音和人工智能的交互。
“在移动互联网时代,我们需要全新的人机交互界面,”Coates说,“而语音就是我们所认为的能够影响1亿人的方式。”
百度硅谷研究院在过去几年开发了Deep Speech技术,不同于传统的语音识别系统,Deep Speech完全运用了深度学习技术,通过成百上千小时的语音数据训练后,实现对语音的识别。
此前,吴恩达在担任百度首席科学家时曾经介绍过Deep Speech系统,他表示,过去对于识别不同的语言,需要做相应的针对不同语言的系统,而运用了深度学习技术的Deep Speech系统则完全不需要对不同语言进行区别对待。“学习算法的通用性已经可以不用区分不同的语言。”
目前,Deep Speech已经推出第二代,Adam Coates表示,这套系统最初全是用英语语音数据进行训练,后来才引入了中文语音数据的训练。
“因为这套系统完全是基于深度学习,完全取决于训练数据,所以我们可以很快地用中文语音数据来替换,并使其成为非常强的中文语音识别引擎。”Coates说。
他介绍说,这套系统的训练数据很庞大,加入了非常多的口音很重的中国方言数据,而这些数据的训练效果也很好,以至于很多人耳都难以听清的方言语音,系统都能够成功识别出来。
如今,百度的这套主要由美国人工智能研究院所开发的系统,已经成功实现了产品化。去年10月,一款名为TalkType的手机应用登陆安卓商店,这一应用便是基于Deep Speech的技术,是被百度称为第一款真正意义上的“语音优先”的输入方式,而非键盘输入之外的“语音辅助”的输入选择。
Coates认为,百度以及其他在中国从事人工智能研究的公司的最大优势在于,中国互联网用户很快地接受了移动终端这样的上网方式,无论是普通的收发邮件、浏览网页,甚至是到餐馆就餐,全部能够用移动设备来完成,这些使用习惯与美国用户完全不同,而这些给了例如语音识别等人工智能应用的广泛的应用基础。(编辑:chunwzhang)