从图像识别到视频识别微软小冰拿什么和谷歌PK？

砍柴网 • 8年前扫码分享

文/张江健

1956年的夏天，一场在美国达特茅斯（Dartmouth）大学召开的学术会议，多年以后被认定为全球人工智能研究的起点。2016年的春天，一场AlphaGo与世界顶级围棋高手李世石的人机世纪对战，把全球推上了人工智能浪潮的新高。

经历了两次起伏，人工智能现在进入了全球爆发的前夜。仅在中国就有上亿人直接或间接地观看了AlphaGo与李世石的比赛，而在2016年初，还有IBM在全球大举推广基于IBM Watson的认知计算，Watson的前身就是1997年打败了国际象棋大师卡斯帕罗夫的“深蓝”。而2014年，微软的人工智能机器人小冰也同样在社交平台掀起一股前所未有的“调戏”热潮。

达特茅斯大学

视频识别成人工智能的重要突破

当AlphaGo战胜李世石的消息传来，有人评价说：“这是人工智能一个时代的开始。”

两次人机大战时隔20年，这其中最重要的差别在于象棋与围棋的复杂度差异巨大。人工智能之所以能够先战胜国际象棋冠军，在于国际象棋可以穷尽接近所有可能的棋局，而围棋就不一样了，其运算量接近无穷大。

从图像识别到视频识别微软小冰拿什么和谷歌PK？

AlphaGo对战李世石

而与谷歌的选择不同，微软则将计算机视觉作为主要突破点。因为微软相信人工智能要融入人类世界，没有视觉识别能力的机器人无法真正与外界交互。2015年，在微软等大公司的推动下，计算机视觉已经逼近全面突破的拐点。微软不仅在ImageNet全球顶级的计算机视觉挑战赛夺得冠军，微软人工智能机器人小冰还率先发布了图像识别技能。在准确的图像识别的基础上，结合人工智能自己的观点，对图片进行人性化的评论。

而就在这几天，微软再次对小冰的视觉感官进行升级，实现了对视频的识别和评论。率先实现了对人类视觉感官的模拟。从静态图片到动态视频，人工智能机器人小冰率先实现了对人类视觉感官的模拟。开辟了一条与谷歌不同的人工智能发展之路。

从图像识别到视频识别微软小冰拿什么和谷歌PK？

微软全球执行副总裁陆奇发布微软小冰

当然，从图片识别到视频识别，这一技术跨越是巨大的。半年前，Google人工智能的两位软件工程师在博客上公布了关于人工智能的一些研究成果，其中很重要的一个突破是，能够初步辨识出动态视频的内容。他们的最终目标不仅要分辨出图像中的物体或人，还要搞清楚他们在干什么。而在前段时间召开的Facebook开发者大会上，扎克伯格也透露将会把人工智能（AI）巧妙的运用在视频播放中，根据视频中人物的服饰、身材、发型等识别并标记人物，方便用户日后检索。小扎也明确表示，相比静态图像的识别，视频识别更为困难，对技术的挑战更大。

视频识别扩展人工智能的想象空间

巨头们极力看好并且大力发展人工智能，根本目的是让人工智能帮助人类从低效率的重复劳动中解放出来，帮助我们解决很多依靠自身无法很好解决的问题。

在很多经典的警匪类型美国大片中，我们经常看到警察可以通过全国的交通及安防摄像头追踪疑犯的动向，从而帮助警察迅速破案。但实际上，受于技术上的限制，现实生活中对视频内容的分析依然以人工为主，所以经常看到国内新闻媒体报道，某地警察通过调取案发现场附近监控视频经过数小时的分析终于确定疑犯容貌从而成功将其抓获归案。除了抓疑犯，通过调取监控摄像头数据进行分析对于寻找失踪小孩也是有非常大的帮助，但是目前技术条件下，通过人工分析视频效率非常低下，让视频监控的价值大打折扣。

如果人工智能在视频识别、视频分析等方面取得重大突破，那么只需要输入一张照片做参照，即可让机器从一个地区数以千计的视频监控服务器中快速查找定位到相应目标，工作效率及准确度是人工分析根本无法比拟的。这也是为什么微软小冰视频识别能力发布后让许多人感到兴奋的重要原因，这代表着人工智能在视频分析方面再次取得突破，后面将以此为基础产生很多具备良好想象空间的应用案例。微软对于人工智能、计算机视觉的投入正不断加大，小冰自发布以来也经历了脱胎换骨的变化。微软人工智能的下一步走向哪里，十分值得期待。（作者简介：张江健，互联网分析师，长期研究互联网科技趋势及产业经济，读者人群超过千万。）