Reddit热议：轻量型视频理解+动作识别的开源框架Sense火热出炉

IT思维 • 4年前扫码分享

公众号/新智元（AI_era）

来源：reddit

编辑：keyu

【新智元导读】不需要姿态估计、骨架追踪，仅靠端到端深度学习，即可实现视频理解和行为识别——获得微软1000万美元融资后，初创公司Twentybn推出最新推理工具Sense，集合数据处理、模型训练等多种功能一体，帮你实现诸如手势识别，健身跟踪，健身重复计数器和卡路里计算等多种任务！

本周，来自初创公司Twentybn的研究人员在Reddit上发布了一则帖子，获得了广泛关注：

帖子中记录道，Twentybn的研究团队最近发明了一个名为Sense的推理框架，使用Sense，在不需要姿态估计、骨架追踪的情况下，仅靠端到端的深度学习，开发人员就可以使用RGB摄像头来预测人类的行为。

官方给出的范例包括了手势识别，健身跟踪，卡路里计算等任务。

研究人员表示，他们正在努力使Sense成为集收集和清理视频数据、训练强大且高效的视频分类器功能、并能部署到任何设备(iOS和Android)上的一体化工具包。

Reddit热议：轻量型视频理解+动作识别的开源框架Sense火热出炉

致力于帮助AI学习解释人类行为，TwentyBN目标远大

TwentyBN是一家在柏林和加拿大设有办事处的创业公司，2018年，它筹集了由微软风险基金M12领导的1000万美元资金，主要用于帮助AI学习解释人类行为。

首席执行官兼首席科学家Roland Memisevic表示，公司将利用新资本扩大业务规模。

Reddit热议：轻量型视频理解+动作识别的开源框架Sense火热出炉

“从成立的第一天起，我们一直致力于将AI和交互式计算机视觉领域数十年的进步推向世界的每个角落，无论是家庭，办公室，商店还是机器人的大脑。”

TwentyBN的新型计算机视觉系统可以只使用现成的RGB相机观察人类，并与他们互动。它的AI不仅能响应基本行为，还考虑到每个参与的环境和背景，提供类似人类的情境意识。

Memisevic认为，虽然AI图像分类系统非常适合检测物体，但它们并不接近人类自治。他说，真正认知理解的关键在于能够理解行动。

TwentyBN技术的核心是一个众包的视频剪辑数据库，TwentyBN称，该数据库是同类中最大的。多年来，它从一个志愿者网络中采购了大约200万个片段，这些片段已经演出了数十万个场景，其中一个场景是免费提供的。

其“Something Something”数据集包括人们使用日常对象执行的基本操作，其Jester数据集显示人类在网络摄像头前执行预定义的手势。在数据集上训练的精密机器学习模型可以为汽车、智能家居和零售应用提供无触点、基于手势的界面。

模型SuperModel可以检测身体动作和人与物体的相互作用。手势识别模型则可以识别30多个动态的手部动作，并在空中追踪手指的运动。

客户通过与各种平台兼容的软件开发工具包来利用这些模型，包括Docker，RIS，Vuforia和Wikitude。在AirMouse和手势识别的情况下，它们与各种硬件兼容，包括嵌入式系统，台式机和移动设备。

免费提供预训练参数，多个demo任你跑

这款推理工具已经包含了预训练参数，现可供大家免费下载：

Reddit热议：轻量型视频理解+动作识别的开源框架Sense火热出炉

下载地址：

https://20bn.com/licensing/sdk/evaluation

Sense中的模型规模小、效率高、在CPU上运行平稳。使用官方提供的预训练参数，大家可以运行诸如手势识别，健身跟踪，健身重复计数器和卡路里计算的demo。

图：手势识别

图：健身追踪器和卡路里计算

此外，用户还可以使用这些权重参数，在自己的视频分类器上进行迁移学习，并根据自己的用例自定义模型。

该项目的Github页面还附上了相关操作和使用的全部说明和指南：

Github地址：https://github.com/TwentyBN/sense

感兴趣的小伙伴可以前去试一试！

参考链接：
https://www.reddit.com/r/MachineLearning/comments/ld8yjz/p_sense_open_source_framework_for_video/