「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

此公开课为极客公园策划的「极客公开课•Live」第十三期。Yi+ 产品总监苗炜为大家讲解 AI 图像识别是如何应用于视频分发平台的?大屏视频推荐系统优化目标是什么?如何基于场景来推荐?基于内容分析推荐的冷启动是怎样的?视频分析中,图像、语音、OCR 等技术各自特点;如何进行多模态的融合?

什么是「极客公开课」?

1 位技术产品大牛和 10 位优秀技术产品人围绕技术产品相关话题,面对面深度分享和讨论,共同创造更优的知识与更高的学习效率。

而现在,这种深度的交流方式属于每一个人,知乎 Live 同步线上实时问答,随时随地参与提问互动,与数百人共创一本知乎 live 版的「课堂笔记」

每周 1 次,全年 50 场,极客公开课,推动产品人的自我迭代

以下为本期课堂笔记精华摘要: 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

今天我们主要讲的内容是 AI 视觉产品的落地。

简单来说,现在所谓深度学习还是机器学习的一个延伸,或者说分支,或者说一个子集。因为它在一些算法的通用性上突破了部分原有的机器学习的极限值,它通过学术上的变化,带动了产业和应用的变化。

目前 AI 视觉做的最好的领域一般都是偏工业,或者是偏相对严谨、严肃的方向比如说安防、金融这些领域。但是,其实在娱乐领域应用已经越来越多。例如人脸贴图、视频推荐、电视购物推荐等等,虽然这些应用场景不是特别明显的,但在互娱领域都已经开始逐步渗透了,这就是我们说到的交互方式的改变。 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

我们简单介绍下娱乐和人工智能结合的一些可能的应用方向:

方向 1:大屏,或者说智能电视

这部分包括第一项就是智能电视的观看 AI 助理,它是一种伴随式、体验式的。另一项是电商,中国电视购物这一块占比很低,但是在一些欧美国家,比例却很可观,这其中有中国自己的一些特殊情况,但我们认为在结合大屏、智能电视这一块,还是有望获得一些突破。其他还包括:智能电视中直播内容的导流、智能电视的场景广告及智能视频的短视频的生成。一个短视频的生成相当于基于一个长视频,一个完整的视频,通过对它的理解和一些精彩片段的提取,然后自动生成一个精华片段。我们公司正在做这个部分的研究,因为我们认为这是一个非常有意思的领域。

方向 2:移动端,也就是智能手机。

这一块应该大家接触的可能会更多一些,包括拍照购,例如淘宝的这种拍立淘,就是拍到什么,能够实时显示对应的商品;智能相册,这个产品已经应用的非常好了,各个移动端的相册归类也好、搜索照片也好,都会越来越方便;虚拟试妆,就是 makeup 的效果,直接能够在移动端或者在手机上看到,类似于直播贴图,个人认为这个产品的潜力还是挺大的;另外还包括动态的 AR 相机和信息流推荐。 更多演示与讲解,请见知乎 Live

  • 智能电视、广电市场

我们发现最直接,且已经非常成熟的,或者说我们认为是必须存在的一个商品,就是大屏,或者说是智能电视,其实它早就在这儿了,但是我们好像并没有把这个领域利用的非常好。 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

目前行业现状凸显几个问题:内容及细化运作不足、软硬件体验不一致、内容密度不足、视频流冲击用户观看习惯。也正因为如此我们能看到这个市场有非常多的机会,或者说变革的可能性。

我总结了五个核心内容,具体如下: 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

第一:引入互联网内容。类似微博、今日头条的内容,这个是最容易的,但是也可能是最麻烦的,因为涉及到智能电视里面的内容审核,或者说本身的一个内容安全性。

第二:改进交互机制。很多智能电视的公司都已经去做这块的尝试了,比如说,接入语音,现在很多打着 AI 电视名义的公司其实就是做了一个语音控制,其它其实都是一样的,而这个交互机制能不能真的做出一个比较大的突破,我觉得是一个非常重要的用户体验点、突破点。当然,还有一些,就是手机的联动,包括节目里这种摇红包,或者是扫二维码这种行为,手机投票,这种其实都可以算是一种交互机制的长势。

第三:大屏智能推荐中心。通过用户大数据、人工智能的一些算法,去做内容的管理,或者是更好的内容推荐,这个其实是一个可以尝试的空间,因为,智能电视这一个领域,本身它的数据量和数据维度,这两点其实是非常充分的,可以做这块尝试。

第四:复制移动 APP。把一些移动端、手机端已经比较成熟的 APP 的体验,复制到智能电视上,这个相对来说也比好理解。在一些特定的场景,尤其是针对老年人、小朋友学习,或者说教育这块,它的应用体验,或者说因为它屏幕的优势,所以它在一些特定的应用上,其实有它自己的得天独厚的优势。

最后就是广告。这个大家的体验非常直观,就是移动端的广告,对用户干扰非常低。但是,我们在电视节目里看到的大量广告还是以一个比较简单粗暴的形式出现的。所以,这个是我们总结的五个可以做比较大突破和尝试的一个领域和机会。

简单一句话,我们认为电视+AI 这个领域有很多的机会和变革的可能性的。

  • 基于大屏的推荐系统 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

这个其实就是一个非常的简单推荐系统的框架,相当于基于用户观看内容,包括他当前播放视频和之前播放视频的进行分析。中间这个模型,相当于它是基于线下去做训练,包括采用的模型本身,可能比较常用的推荐都会用协同过滤的一些方式。当然,我们现在开始尝试和延伸做的就是这些用深度学习的方式,去做这样一个模型和特征提取。最后,基于模型和当前内容跑出的一个结果,实际上是把推荐内容,包括视频、广告、电商内容和互联网的内容,重新在用户前端展现,其实简单的来讲,就是这么一个机制。具有到我们这个产品本身,其实它在我们自己的一个开发和应用过程中,我们发现了一些比较有价值的东西。 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

首先,这种基于图像、视频分析的一个推荐,和我们传统用户、大数据或者说用户的行为分析这块,其实在产品研发时遇到了冲突。之前我们在手机上收集用户数据是非常容易的,包括各种数据埋点,或者说数据的用户画像是能够比较快锁定的。但是,大屏上比如说它的用户画像,因为往往一个电视可能有几个人去观看,这几个人的这种规律和观看习惯可能完全不一样,这跟手机有非常大的区别。

而大部分目前直接的这种大屏厂商,他们的这种数据埋点、用户画像的能力往往前期是不太足的,他们的数据也是从一些第三方内容的导入,包括自己建了一个数据系统,这个数据可能是部分视频有的。所以,它很难像我们移动端的一个 APP 产品一样,它的用户数据是非常全的。所以其实这也是我们之前使用这个产品,基于图象、视频分析去做这样一个事情的核心原因。

我们认为在这种智能电视市场,会有比较大的一个突破的地方,就是说它的推荐是能够非常快速,没有冷启动的一些瓶颈,推荐的效果也没有过多的用户画像长期积累这样一个过程。这个是我们一个比较大的收获,包括后面引用了一些深度学习的算法,对数据维度,包括扩充的能力也会比较强。

第二,就是目前这个市场不够成熟。用户的交互习惯已经培养的非常好了。你做手机应用的时候根本不需要考虑这些,但是你在大屏上教用户去按某个键,比较多的调用他的摇控器,甚至有的 APP 是要用手机交互,这个过程当中,其实是有前期用户习惯培养的机制。

第三,和硬件的交互适配,我们服务的厂家,它自己在硬件上有了很大的改变,比如说,它的摇控器是重新设计的,前端看到的也是比较互联网化的体验。 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

下面是系统的一个简单介绍,如果有专门做智能推荐的话,这些都是很常见的东西,我们现在采用波的是协同过滤,我们拿 Item-based,实际上基于智能分析的标签,或者说图象、视频生成的一些特定标签,实际上基于 memory-based、Item-based,然后去做的一个协同过滤。 更多演示与讲解,请见知乎 Live

  •  AI 技术相关

对于目前大部分的计算机视觉,或者国内的 AI 创业公司,他们其实是两个方向:

方向一,服务器端。更快的对数据模型进行训练,对于它的场景来讲,它的精度除了安防和金融这一类,更多是要尽快把反向传播这个事情做完,对精度要求可能并没有学术界那么高。我们针对这一类的需求,基于英伟达的 TensorRT 做了优化,而不是像很多公司一样,直接对 CNN 做一个优化。我们这块性能,应该说带来的指标比较明显的,性能提高了接近 1 倍,包括它的处理速度和整个模型训练的效率,这是我觉得我们比较大的一个成果。

方向二,移动端。目前除了少数公司,像 Facebook,它的团队会考虑用移动端做反向传播、训练,大部分现在国内的公司,或者说,我们比较多的场景,移动端是一个向前传播,只需要把训练好的模型结果跑出来,谁能够最快的用最低的内存占用率去跑,其实谁就能够在移动端有更好的性能。 更多演示与讲解,请见知乎 Live

关于视频这部分,应该说,我们也在探索,因为这个是一个多模态的技术融合,现在市面上客户一个比较简单的需求,他可能对视频内容的诉求比较多元化。

我们发现对于客户来讲,或者市场上希望能够对视频进行分析的内容,往往比单纯的图象本身能够展示的内容要复杂。基于这样的一个原因,包括直接对视频,尤其是我们会用 C3D 东西,直接对视频加上时间、时域的特征去做分析。

最后就是这样一种图: 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

第一行,就是一个单纯的视频序列,传统上,我们可能更多做的是对于图象本身,或者说单纯的图象分析,但是现在我们可能直接把三维的特征,包括时序的特征都去直接做一个提取,因为这种方式,往往比图象的特征合成要效率更高,因为它能够快速的出一个视频最终的特征集。

第二行,应该说语音或者音频的一些信息。

第三行,比如说,OCR 把字母或者文字特征提取出来之后,最后你可能三种,包括图象本身所有的信息,去把所有的特征做一个重新汇总。

我认为,这个应该是以后比较长期的方向。 更多演示与讲解,请见知乎 Live

以上就是本次公开课的关键内容,更多演示请点击 「极客公开课·Live」第十三期 或扫描下方二维码查看获取: 「极客公开课·Live」5 分钟带你复习 AI 图像识别如何应用于视频分发平台

随意打赏

提交建议
微信扫一扫,分享给好友吧。