谷歌AI实验室再现新成果:将开源基于机器学习的手部跟踪算法
现如今,手语是一种独特的语言,其使用双手、面部表情和其他线索就来产生一种不同于其他语言的丰富交流模式。
但在关于手语的科学研究上,实现强有力的“实时手部感知”至今都是科学界中一项具有挑战性的计算视觉任务,这也是大多数人一直在等待的手语技术的科研突破。
近日,谷歌人工智能实验室在“实时手部跟踪”方面就有了新的进展。谷歌的研究人员说:“这种科研上的挑战也促使了我们的科学家们研究了一种新的计算机视觉方法来进行手部感知,这是一种通过机器学习来支持的新技术。”支持高准确性手势和五指追踪,可根据一帧图像推断出单手的21个立体节点。
今年6月,谷歌在计算机视觉和模式识别大会上预览了这项新技术,除此之外也在MediaPipe中实施了这项技术,MediaPipe是一个跨平台框架,其用于构建多模式应用机器学习流程,以处理不同模态(如视频和音频)的感知数据。
据了解,其源代码和端到端使用场景都可以在GitHub上获得。
据悉,谷歌的这项新技术使用了一些巧妙的快捷方式,通过提高机器学习系统的整体效率,在现当下仅需要一部智能手机和一台相机,就可以实时生成一张高度精确的手及其所有手指的地图。
据其内部人员透露:“目前最先进的推理方法,主要依赖于强大的桌面环境,而我们的方法可以在手机上实现实时性能,甚至可以扩展到多个手。”
同时研究工程师Valentin Bazarevsky和Fan Zhang在博客中表示:“感知手的形状和运动的能力是改善各种技术领域及平台用户体验的重要组成部分——我们也希望向更广泛的研究和开发社区提供这种手势感知功能,这可能将会刺激创新性案例的出现、新的应用和新的研究途径的出现。”
研究这项突破并非易事,因为这项强健的实时手部感知技术,在研究上着实是困难重重。
研究过程中,手经常会彼此遮挡(例如手指/手掌的遮挡和握手),同时也缺乏高对比度模式的应用,所以这就为研发增加了很大的难度。
不仅如此,手的运动通常是快速的、微妙的,或者两者兼而有之。计算机根本不擅长实时捕捉到这些运动。
基本上,计算机很难快速做到实时正确解读这些运动。即使使用了多摄像头,SignAll使用的深度感应设备也很难跟踪到每个动作。
但这些并没有阻挡了谷歌的研究脚步,在这种情况下,他们的目标要至少在一定程度上减少算法筛选所需的数据量。因为更少的数据量将实现更快地转换。
首先,他们放弃了让系统检测整只手的位置和大小的想法。
相反,他们只让系统找到手掌,手掌不仅是手最独特、形状最可靠的部分,而且还是方形的,这就意味着他们不必担心系统能够处理高矩形图像、短图像等。
当然,如果手掌一旦被识别出来,手指就会从手掌的一端伸出来,可以单独分析。一个单独的算法会查看图像,并为其分配21个坐标,大致与指关节和指尖协调,包括它们可能的距离(它可以根据手掌的大小和角度等来猜测)。
为了完成这一手指识别部分,他们首先必须手动将这21个点添加到大约3万张不同姿势和照明情况下的手部图像中,以便机器学习系统进行摄取。
一旦确定了手的姿势,就会将其与一系列已知的手势进行比较,从字母和数字的手语符号到“和平”和“金属”之类的东西。
这种结果是一种既快速又准确的“手动跟踪算法”,可以在普通的智能手机上运行,而不是在精心设计的桌面或云(即其他人精心设计的桌面)上运行,并且所有这些都是在MediaPipe框架内运行的。
据了解,这些系统需要更强大的硬件来实现识别手势所需的手部识别功能,所以其他的研究人员也将能够利用这一技术去运行它,也许还将对现有的系统进行改进、创新。
目前这项技术还没有应用于任何谷歌的产品中,谷歌愿意让这项技术走向世界、使其帮助更多的研究者为推动科研做出贡献。
所以其研究人员表示:“这里的源代码可供任何人使用和构建。”在未来,Valentin Bazarevsky、Fan Zhang和他的同事计划通过更强大和稳定的跟踪扩展技术以此来扩大可靠检测的手势量,并支持及时展开动态的手势。
最后他们表示:“我们相信,发布这项技术可以推动研究和开发者社区的成员对新的创意及应用的推动。”
AD:还在为资金紧张烦恼吗?猎云银企贷,全面覆盖京津冀地区主流银行及信托、担保公司,帮您细致梳理企业融资问题,统筹规划融资思路,合理撬动更大杠杆。填写只需两分钟,剩下交给我们!详情咨询微信:zhangbiner870616