CVPR 2016:黑科技是如何耍酷的?
计算机视觉和模式识别领域顶级学术会议CVPR正在美国召开,因为涉及到机器人、VR、AR、自动驾驶、生物医疗、工业自动化和检测等众多领域,很多学术圈之外的人不得不对这个顶级学术会议刮目相看,甚至把这个学术会议成为前沿理和前沿技术的聚集地,下面一起来看看CVPR 2016我们应该主动关注什么。
给机器“看电视剧”预测人类行为
CVPR2016上,麻省理工学院计算机科学和人工智能实验室(CSAIL)将发布一份关于可预测人类行为的算法的研究报告。通过给此算法导入近600小时的电视秀(其中包括《生活大爆炸》《绝望主妇》《办公室》等剧集),来测试机器是否能准确预测人类在各场景互动中的行为。此次实验数据是人工智能“预测想象力”技术的显著进步。
点击查看
详情
。
基于深度学习的手势识别:能够用于VR交互
来自于美国普渡大学C Design 实验室的研究成果——DeepHand(深度手势识别),基于“深度学习”解析人手塑造的角度和扭曲等动作,这是一个新的突破,可以在未来加强VR设备的交互上有广泛应用前景。
点击查看 详情 。
微软全息“穿越”技术:HoloPortation
HoloPortation将人物全息图像投射到另一个房间,使该房间内的人可以和全息影像实时互动,系统通过追踪人物身体的高质量细节,重建每一个特征。
项目主管Shahram Izadi透露,最开始他们只是想缓解思乡病。Shahram Izadi的剑桥(英国)团队专注于用3D传感器技术、机器学习来解决下一代计算问题,花了两年半时间,团队才和华盛顿Redmond 的HoloLens团队融为一体。Izadi已为人父,视频中出现的女孩是他的女儿。
人工智能为视频配音:机器人感知世界又进一步
CVPR上,来自麻省理工学院开发的算法演示他们将如何精准预测声音。当研究员将一个击打物品的短视频交给算法,算法就可以生成一个打击的声音,真实到可以糊弄住观看视频的人类。点击连接中的视频,看看算法生成的声音能不能糊弄住你。
点击查看 论文 。
人脸识别 算法面对100万人脸时准确率有多高
华盛顿大学的一位计算机助理教授Ira Kemelmacher表示,我们需要一个更大规模数据集的评测标准,帮助研究人员找到自己识别算法中的缺陷。他们首先建成了一个来自Flickr网站上的69万人的100幅人脸照片,允许其他研究人员遵循创作共用许可协议下载数据集,使用自己的算法从数据集中进行匹配。
谷歌的FaceNet算法识别准确率最优,在小规模数据集中准确率几乎完美,在百万规模数据下达到75%的准确率,另一个与之接近的团队是俄罗斯的N-TechLab,他们实现73%的准确率。相比之下,其他算法在小规模数据集能达到95%以上,但是百万规模下的识别准确率下降到33%左右谷歌的FaceNet算法识别准确率最优,在小规模数据集中准确率几乎完美,在百万规模数据下达到75%的准确率,另一个与之接近的团队是俄罗斯的N-TechLab,他们实现73%的准确率。相比之下,其他算法在小规模数据集能达到95%以上,但是百万规模下的识别准确率下降到33%左右。目前有超过300支团队在使用MegaFace数据集进行训练。
初步讨论结果将在CVPR 2016上呈现。
点击查看 原文 。
深度学习识别
YouTube
的图片
迪尼斯研究院和复旦大学在CVPR 26日的大会上展示了如何用深度学习自动识别刚刚上传到YouTube视频里正在发生什么大事以及新鲜事。来帮助开发之前视频上传后丢失的大部分有潜在价值的信息。
点击查看 原文 。
斯坦福大学:社会化行走机器人Jackrabbot 懂礼貌会排队
斯坦福大学的研究人员们也是费尽了心思,他们制造了一个叫Jackrabbot的原型机器人,希望他们的Jackrabbot机器人能够自行在街道上行走,又不会与其他行人碰撞,或者遇到迎面而来的人时不知往左往右,未来这些走路的经验还可以分享给其他的机器人。
小结:
上面就是CVPR已经出现或者即将出现的 黑科技 亮点,相对CVPR官网凌乱的导航,顺着这些黑科技按图索骥会帮你更快地找到大会的重心和亮点。