小视科技：视频智能理解是“体量最大”的人工智能

砍柴网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

和围绕人类生活的其他事物相比，人工智能半个多世纪历时并不算长。从一开始的神学家，科学家讨论，到后来的所有行业都布局人工智能，人工智能技术高度普及，高调而全面的进入人类的生活。属于人工智能的这部“简史”，高效而垂直。现代社会很快从已经达成共识的“万物互联”走向探索“万物智能”，人工智能将更加浸入式、碎片化地嵌入生活。

在人工智能的众多类别中，哪一项应用范围最广泛，最为“包罗万象”？4月25日，在由镁客网主办，苏州市科学技术局指导的以“AI创新带来的智能革命”为主题的M-TECH论坛上，小视科技联合创始人，上海交通大学副教授倪冰冰指出，视频智能理解是“体量最大”的人工智能。视频智能包含人脸识别、动作识别、物体检测、媒体制作、视频推荐等内容。这项技术也正在与市场相结合，在安防监控、辅助驾驶和社交媒体中探索新的发展空间。甚至成为了一些行业的技术制高点，并引导着行业的发展方向。

小视科技：视频智能理解是“体量最大”的人工智能

倪冰冰教授认为，目前，智能视频也面临着诸多挑战。例如：时序问题突出、目标尺度变化大、视频体量大等等。面临亟待解决的难题，小视科技的AI研发团队提出了几大创新。

一是行为识别。基于时序特征金字塔，提取多时间尺度运动特征，通过深度递归神经网络-LSTM提取多时间尺度运动特征。这一研究获得了由谷歌、斯坦福等国际顶尖人工智能研究机构主办的，国际最大规模视频行为识别竞赛，挑战难度最高的THUMOS’15行为检测国际竞赛中，获得视频检测小组国际第一名。

小视科技：视频智能理解是“体量最大”的人工智能

二是行人重识别。从双路LSTM网络入手，取代传统的取帧、识别方法，解决跨摄像头行人重识别的问题。目前此项技术已在跨相机客流实时分析系统中应用。支持客流大数据的展示和百路以上监控视频，行人重识别准确率超过95%。

小视科技：视频智能理解是“体量最大”的人工智能

三是群体计数。针对人像大小变化大，单一分辨率模型无法适应的问题，基于单路CNN卷积神经网络人群密度估计算法，自适应多路CNN卷积神经网络人群密度估计算法，通过Switchable-CNN，实现自适应子网选择，解决Model Averaging问题。其典型应用案例是世博会场景下的人数统计系统。在规模最大，人数最多的WorldExpo’10数据库中，达到误差5%以内的国际最佳精度。

小视科技：视频智能理解是“体量最大”的人工智能