你是我的眼:人工智能革命的第一步从摄像头开始
在上一篇文章“ 当我们讨论智能家居时,不要忘记机器人 ”中,我提到了拟人化的人工智能可能成为智能家庭的中心设备。那么问题来了,人机交互只能依靠语音命令吗?那机器与环境的交互呢?
在2013年秋季英特尔信息技术峰会(Intel Developer Forum,IDF)。英特尔带来了很多给予英特尔芯片的产品,其中非常引入瞩目的,就是这个原型来自瓦力的机器人,她的名字就是瓦力(Walle)。瓦力最重要的功能是:一、跟人打招呼;二、跟人握手;三、英特尔在机器人腹部放了一个屏幕,让人们可以看到机器人是如何“看到”或者说感知世界的。
看看“瓦力”那萌萌的大眼睛!这简直就是皮克斯送给人类最好的礼物。但很抱歉,从技术的角度来说,这两炯炯有神的眼球只是装饰品。机器人胸口的微软 Kinect 1才是所谓的“眼睛”和“耳朵”。机器人通过Kinect来获取图像和深度信息,以此完成从识别人到打招呼、握手的环节。因为Kinect也配备了高清麦克风,所以顺带把“听”也解决了。加之Kinect本身具备一定的运算能力,也起到了部分大脑的作用。
明白了吧?瓦力是通过深度摄像头,来获取真实世界的信息,并将其转化成虚拟世界所需要的数据,然后加以处理的。目前有个时髦词汇来形容这一整个过程,叫“机器感知”,或许马上这词就会跟“云”一样连老大妈都能说了。总之,你可以这么理解,深度摄像头就是下一代“电脑”比如机器人最重要的器官,这个器官将承担新一代人机交互的重任——从人与手机,到人与机器人。
我上一篇文章介绍了蛛型机器人吧,那小家伙身上也背着一个摄像头是来自华硕的 Xtion 。跟 Kinect 1可说是同父异母的关系,其核心技术都来自于一个父亲的DNA—— Primesense ,一家长期致力于将深度摄像头民用的公司。Primesense不是深度摄像头的始祖,但这场新人机交互革命,却是这么打响第一枪的,在 Primesense 的背后,是无数的巨头在为其举着火把。简单来说, Primesense解决了很多数学算法问题,帮助他们能够设计出来足以快速处理深度信息的芯片,这些芯片被授权给硬件厂商生产,这就是深度摄像头的核心组件。通俗的比喻,就是图像图形界的英特尔。
Primesense 成立于2005年,在2006年对外宣布完成了3D感应芯片的研发,在当年的 E3 大展上与微软建立了联系,并催化出代号为 Project Natal 的神秘项目。等到 2009 年 E3 大展时,微软发布了获得PrimeSense 芯片授权的 Kinect 1。于此同时获得 Primesense 授权的也包括华硕,这就是 的由来。不过传说微软因收购 Primesense 的失败,在 Kinect 2时放弃了Primesense 。最终在2013年11月25日,苹果最终3.6亿完成了对 Primesense 的收购。
看到了吗?从微软、英特尔再到华硕,最终是苹果,在计算机业界里数的来的巨头,都跟这家年纪尚轻的公司产生了联系。最早爆料苹果要收购 Primesense 的以色列媒体 Calcalist 是如此描述苹果的意图:苹果通过对 PrimeSense 的收购,从而在室内娱乐领域获得了关键性的技术。
在此之后,无数媒体都在预测苹果将在客厅这个战场上与微软、索尼掰掰手腕,从新一代AppleTV再到iTV。不过收购至今将满1年,苹果看起来在这方面没有任何消息,多少是让人有点失望的。不过细想下也符合苹果的作风:秘密开发然后一鸣惊人。
你要认为业界会因 Primesense 的销声匿迹就平淡,那你就错了。其实从 Primesense 被收购开始,才正式拉开了新人机交互战争的序幕,曾经在触屏或键鼠时代的不少巨头,都在此后快速入场布局。因为 PrimeSense 被苹果收购,其对外授权的技术将会在 2015 年终止,所以那些使用了 PrimeSense 技术的厂商们不得不寻找替代方案。很多人是看到了赚钱的新方式,比如很多国内的新兴公司,比如小米。有些则是看到了颠覆的点,希望能够扳回在手机时代的败局,比如英特尔。还有些则是害怕被颠覆,比如苹果。
来自中国的公司,除了小米,有些名字你也许还不熟悉,不过他们或许是下一个世代的巨星。接下来,我将分国内和国外两个部分,来解析巨头们或者准巨头们的布局:
国内创业公司:
-
格灵深瞳 主打智能安保的公司,此前 36氪 曾对 格林深瞳有过报道 ,他们也宣称自己造出了带有深度摄像头的安保设备,这家微软孵化器第二期的公司,看团队履历非常耀眼。不过我判断他们的实际竞争力应该在软件和存储端,在硬件端大致上会倾向于采购更为核算的方案。所以奥比中光在商业目标上是非常准确的,一切就看最终的成本和适配问题了。
-
奥比中光 奥比中光的核心目标就是取代 Primesense ,他们从成立的那一天起就是希望能够在弥补 Primesense不再授权后,国内留下的市场空白。他们目标是做给基于安卓系统的新人机交互提供设备。主要市场之一是游戏市场,比如那些主打游戏功能的安卓盒子,特别是例子就是乐视电视。乐视电视此前已经具备体感游戏功能,他们选择的恰恰是由 Primesense 授权而生产的 Xtion 。当 Xtion 存货没有后,奥比中光的产品是可以做到即插即用的。据悉他们在今年10月份已经完成了核心芯片的定型流片,预计会在2015年2月份(可能是春节期间)公开更多信息。
-
北京冰果 这家公司从工商注册信息来看,主要从事的是技术进出口。从多个渠道的消息来看,他们是在委托西安交大的某个研究所在做 Kinect 1的复刻研发。跟奥比中光一样,他们的目标也是取代 Primesense 取消授权后剩余的市场。这家公司的人员组成尚不熟悉,如果有知道的读者,可以邮件联系我。
-
酷感科技 母公司是数码视讯,股票代码300079,主要持股人清华科技园 ,属于清华的校企。清华的图形图像实验室在计算机视觉是有非常重要地位的,可以推测这家公司的技术实力。他们对外宣称已经完成了研发,目标自然也是取代 Primesense。
国外的计算机视觉首先要谈的肯定是大名鼎鼎的微软Kinect,但是他们深度摄像头的核心技术还是来自于授权, Kinect 1 是来自Primesense, Kinect 2来自 Canesta 。微软长期以来的目标,是将深度摄像头应用在游戏场景下。不过有两件事,让笔者可以肯定微软会开始对 Kinect 进行小型化,并应用在新的场景里。
首先,随着机器人视觉的再次兴起,微软在此前 IROS2014 chicago 上推出的开源机器人,工程图标注的是启用了 Kinect 的核心传感器;其次,回想下比尔-盖茨同学在2007年那次 D5峰会上第一次谈及3D感应器,实际上那个点他们已经和Primesense 取得了合作,所以盖茨会说他们已经有货了。那次 D5 峰会上盖茨所谈及的愿景是无处不在的摄像头,希望人们走到哪里,都有一个操作系统;无论是走到哪都能通过 Kinect 操作的设备,还是走到哪都能跟到哪的机器人,确实符合这样的想法。Windows 10的目标又是要做物联网的枢纽从而无处不在,那么 Kinect 或者其他名字但实现更强大功能的“器官”也会需要部署到无处不在吧。
可以这么总结,微软摆脱 Primesense 后做出的 Kinect 2相比Kinect 1是飞跃性的革新产品,在一定时间内,微软在这个领域会保持其技术优势。除了微软之外,在这一领域的大公司和国外的创业公司还有:
-
Primesense 被苹果收购之后,Primesense 宣布将在2015年停止授权,看来是铁了心要自己做包含深度摄像头的硬件。到底是电视还是合作,或者来个苹果的机器人?笔者就不再猜测了。不过这里可以提供一个有趣的事实, Pirmesense实际比任何一家都要更早的完成了微型版深度摄像头的研发。2012年下半年, Primesense就完成了代号“Capri”的微型深度摄像头设备的研发,他们的目标是笔记本、平板甚至是手机里。不久的未来,也许在某代iPhone里就能看到了。
-
Pebbles Interfaces 这家公司被小米投资了,因为小米没有相关的技术储备,未来也不会有这个打算。通过这笔收购,小米得到了关于3D感应器(核心芯片)的相关授权。还签订了三个月的排他协议,相信在未来小米智能电视和盒子上会看到体感应用了。
-
英特尔购买了 softkinectic 公司 的核心技术,然后推出了自己的深度摄像头设备——Realsense。Realsense 分别有对应安卓和Windows的型号,也有对应超极本和平板的版本。可以看出来英特尔在努力做深度摄像头的小型化,并铁了心的要抓住下一代人机交互的入口。就跟小米投资的 Pebbles Interfaces 和 Primesense一样, softkinectic 也来自以色列。考虑到深度摄像头技术,从概念到应用曾十几年都集中在军用和工业机器人领域,以色列有这样天然的土壤也属正常了。
-
谷歌购买的是来自 Movidius 这家公司 的技术,主要应用在 Project Tango 这个项目上,主打 3D感应手机这个概念。
-
Leap Motion 这家公司很早就为国人所知,此前他们也跟神州合作进入了中国,除了主打电脑端的人机交互外,还希望能进入车联网这样的领域。操作精确度一直是 Leap Motion 强调的重点,不过可能由于过度强调精确度,反而使得 Leap Motion 操作体验的不佳。加之他们在处理跟开发者的关系上屡屡出问题,导致后继无力。
如果有机会,笔者应该将 Primesense 、 Pebbles Interfaces 和 softkinectic 这样来自以色列的亲身父亲做个详细的介绍。不过在这里省略也是有意为之,因为实际上这些公司的研发是非常消耗金钱,这就是为何 Primesense 在发展的风生水起的时候,却在2012年将公司员工从190人砍至50人的原因。失去微软支援的他们,实际上是失去了源源不断的财源,而哥斯拉级别的微软却有能力另立门户,直接用钱烧出一台 Kinect 2。
需要大量的金钱去完成研发,这就是深度摄像头在上游的现实。这也是为何只有微软、苹果、谷歌才能称得上真正的玩家,而 Leap Motion 这样的厂商往往后继无力。 Pebbles Interfaces 则是直接来到中国完成的融资,站在他们身后的是小米这样的新巨头为其输送炮弹。
也许超级巨头的入场,预示着下一代人机交互的到来,但新巨头的集体布局,也预示着这个行业在硬件端门槛之高。那么捉摸着在这个领域创业的人们,他们可以做什么呢?
做智能家居、家庭机器人的,可以向以上公司采购设备,对交互要求不高的可以选用国内公司的方案。以前做互联网做APP的公司,不如跟笔者一样,老老实实做应用。不过在新人机交互下的应用,对于每个应用场景的理解将上升几个层级的要求,甚至开发者们还要读懂更多平台传输来的数据。
因为在这个即将无处不在传感器的时代,我们将在真实世界里廉价的捕捉到大量数据,读懂这些数据,才能从虚拟世界获得更多的帮助。
海盗们,准备好迎接这场革命了吗?
本文作者黎明明,运动行联合创始人,看台 FM 主播。长期接触智能硬件和体感领域产品。邮箱:limingming@bifenpai.com 微信:paulaugust
[本文来自读者的投稿,不代表 36氪 立场]