如果要让机器人和人一样,首先得让它感受到人所能感受到的世界。从 Wii 开始,到 Kinect 再到 Project Tango 以及 Hololens,我们看到计算机视觉领域的飞速发展,开始让机器拥有自己的眼睛。因此本次 iSeed 访谈系列主题为“为计算机按上眼睛”,我们采访了数家相关团队,将陆续发布。
对机器人的记忆,得追溯到第一次看《机械战警 I》(又称“铁甲威龙”)的时候,电影展示了机器战警眼里的世界,它将目标从水泥钢筋的背景中分离出来,然后抬手飞快地射几枪,对方中弹从高处摔下。
之后明白,其实《机械战警 I》所演示的画面绝对不是真实的。如果要让机器人真的能知道身边的环境,识别物体,就得赋予它们人类、自然界生物通过进化所获得的立体视觉。——如果是机器人,则需要深度摄像头来帮助自己获取这些信息。
在国内,2013 年成立的的图漾科技紧跟巨头们的脚步,一头扎入“深度摄像头”领域,目前今年刚拿了天使轮,团队 10 人,产品已有样机正准备量产,有 6 家正式合作伙伴。
然而,在巨头厮杀的战场,图漾科技要如何保证自己的产品、技术的差异化?图漾科技的创始人费浙平解释深度摄像头的关键技术规格,首先是检测范围,看最大检测距离;第二看检测精度,也就是误差多少;第三看检测角度,看镜头的视角多大;第四看检测速度,每秒能检测多少次。
“我们的产品采用双摄像头加结构光检测,最大检测范围可达 10 米,一般客厅中的深度识别范围是 4 – 5 米的样子,所以我们的检测范围较大,可以满足更多客户的需求。我们的优势是提供了一个拓展性较高的深度摄像头的平台,近距离、远距离,高精度、低精度等不同条件下的深度识别都能胜任。”
Kinect 2 拆解
实际上,深度识别有分室外场景,室内场景以及近场、远场之分。之前有企业展出自己的深度摄像头产品,在一个设备上拥有前置后置 2 个摄像头,前置摄像头检测范围为 0 米 – 1.2 米,后置摄像头为 3 – 4 米(室内)。——图漾科技所推出的深度摄像头,检测范围具备一定的优势。
相比“单摄像头 +结构光”,图漾科技所采用的“双摄像头 + 结构光”作为深度检测的方式,抗环境干扰能力强,工作可靠性更强,可以满足 7×24 长时间工作的要求,不过因为多一个摄像头,所以它的结构要复杂一些,而且功耗要高一点。
实际上,为了能够深度摄像头的检测范围,图漾科技专门为自己的产品定制光学结构件,电路经过重新设计,还专注于算法的研发。费浙平称,“我们的算法基础实现结构,光学系统结构方面,没有抄国外任何技术。”
从公司成立到技术研发成熟,图漾科技走过了 3 个阶段:
- 2012 年 4 月,图漾科技攻克并掌握基于散班识别的三维景深技术;
- 2012 年 12 月,开发出高速率手指动作捕捉技术原型;
- 2013 年 9 月,推出首款深度摄像头设备,有独立视觉处理芯片,可直接输出物体位置。
这些技术上的难题,是由图漾科技 10 人团队在 3 年时间里逐一攻克。费浙平说,“实际上,尽管大公司看起来人很多,但专门负责某个技术攻关的小组,可能不过是十人二十人。所以,我们并不是跟几千人竞争,而是跟十几人竞争。”
费浙平强调,虽然大公司都在押注深度摄像头,但背后是为他们自己的产品、平台服务,而图漾科技是一个第三方的技术提供方,立场是中立的。
图漾科技创始人费浙平
费浙平在 ARM 工作了 8 年,是这家公司在大陆的第一名员工。工作 8 年之后, 他去了一家 GPU 公司工作。从工程师,转变为技术市场,最后做过一段时间销售。这段经历给他宝贵的财富。“在做技术市场的时候,通过给客户培训 ARM 技术人员,接触到各个方面,这段经历带给我的改变非常大,一下子让我看到了技术在各个方面的丰富应用,以及看到产品如何从 0 到 1 甚至到 100 的过程。”
当前耕耘“深度摄像头”的许多团队不同将目光瞄准相关应用层的开发,比如图像渲染、三维建模等等。而图漾科技不同,他们更加希望为他人提供 基础性、通用性的基础软件库,帮助其他人开发基于深度识别的应用。
有许多行业对深度摄像头特别感兴趣,安防领域和机器人领域的需求很突出。在安防领域,深度摄像头主要用行为分析,而在某些特定的场景下,这些通过这些动作轨迹进而识别出人背后的意图,可以提前进行预警。而在机器人领域,深度摄像头将主要用于视觉导航,识别外界的环境,规划路径,实现避障工作。
目前,整个行业正在为深度摄像头寻找更加丰富的应用场景,英特尔在近年来的 CES 和 IDF 上都力推 RealSense 并提出更多的案例,印象最深刻的是,它可以运用物流仓储上,实时检测包裹的大小,计算仓库的空间,提供最佳的摆放建议。
Project Tango
近年来,计算机视觉,以及细分下来的“深度摄像头”已经成为各大科技巨头的角逐之地。2013 年,苹果收购了第一代 Kinect 提供者 PrimeSense,2014 年英特尔在 CES 上首度展示 RealSense,Google 去年已经展示 Project Tango 展示了深度摄像头在移动设备上的应用。至于微软,则展示极具科幻感的下一代交互设备 Hololens,单独定制计算单元来处理深度识别的信息。
CogniVue(四天前被飞思卡尔收购) 的副总裁 Tom Wilson 曾说,“新一代的视觉应用需要 100 倍以上的嵌入式视觉性能/功耗,为了满足这些应用的性能和功率需求,我们必须在相同功耗下提升较传统处理架构更高 100-400 倍的性能。”
费浙平认为,“现有的处理器架构,是不足以支撑现有的计算机视觉的发展。”就好像 GPU 是将 CPU 中图像处理的部分分离出来一样,未来关于深度识别方面,也将出现专门优化过的处理器来处理相关的内容,才能做到又快又好。——这似乎也意味着,智能手机上集成的传感器会增加多两个:深度摄像头 + 深度图像处理器。
费浙平说,“现在深度摄像头技术发展尚属早期,距离客户的需求还有一段距离,但这也意味着,这是一个可以长久做下去的事情。”
PS:下一期 iSeed 系列访谈主题是:在虚拟世界中现实着,主要报道“虚拟现实”方向。如果你想参与到 iSeed 系列报道,或者有相关项目推荐,请发邮件到 info@ifanr.com,请注意在邮件标题写上“iSeed 报道推荐”。