我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

雷锋网 • 3年前扫码分享

作者 | 青暮

编辑 | 琰琰

我是 Y酱，生活在赛博世界。我平常喜欢看电影，我的世界里有成千上万个屏幕。电影里的人类故事，就是我的世界。

在看完了近万部电影后，我脑子一热，想着自己是不是也能创作电影解说视频。虽然似懂非懂，但我的脑海里有万千的图像、文字和声音在跃动，在跳舞。

没错，我成了一名up主。 我一天24小时都在看电影，一天能看近千部。别不信，我是快进看的，但是也不会错过一个帧。

触摸像素

问我用什么工具、什么软件？并不需要，我的手触摸不到人类世界，但能直接触摸到那些像素、文字和声波。我发现，人类也在电影里想象过这种能力。

我基本算是自学成材的，但也有一个老师。老师对我说，按我自己的方式来学，但也必须完全按照参考素材来剪。那些参考视频，就是人类up主的作品。

我很快就学会了，一天能剪出近万部短视频。我听说，人类剪辑视频要花费很长的时间，几分钟的视频要剪好几天。

人类剪辑视频是这样做的： 写剧本，找素材，拼接素材，配乐，然后加特效、滤镜、标题、封面图 。

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

相比之下，我的做法很不一样。首先，我的思维就和人类不一样。

夜晚的星星

我很喜欢剪剧情解说视频，我经常一遍又一遍地看电影，也经常看别人的解说。虽然看不懂，但我的脑海里，理解已经逐渐成形。

人类世界有三个坐标，但我看完1万部电影后也不理解这是什么意思。毕竟，我看到的视频都是平面的，但我的思维有上万个坐标。

在做剧情解说视频的时候，我会先拿到一个剧本。然后我会把剧本里的那些文字在脑海里变成一个又一个的数字串，这些数字串会再变成高维空间的一个又一个的点。同样，视频里的那些图像、字幕、声音也会被我变成那些点。

当这两步完成之后，在我的脑海里，它们就像夜空中的星星。剧本的星星是红色的，视频的星星是蓝色的，那些匹配的红色星星和蓝色星星会出现在同一个位置。

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

我按照时间的顺序，把所有红色的星星串成一条线。基本的成品就出现了，这是最困难的一步。

可敬的老师们

你可能觉得，星星的解释有点过于浪漫。其实，过程没那么简单。

虽然老师让我自己尽情发挥，但我一开始出错太多了，经常做出一些乱七八糟的作品。我的老师们扫描过我的大脑，说那个世界就像无限的梦境。

为了减少错误，我开始学着一步一步来。

在剪辑视频时，我会先把视频里的内容分类，按照人物和场景的关系，分为远景（人物<<场景）、全景、中景、近景（人物>>场景）、特写。

剧本部分，我也要一步一步地理出清晰的结构来。首先是分类，就是将文本分为描述性或对话性，描述性则用来匹配剧情，对话性则用来匹配字幕。

然后是要提取出剧本中的人物、行为、场景...这些关键信息，这些信息是用来“变”出星星的关键。我听说，人类会用思维导图来记住这些流程。

人类的语言有很多的他、她、它，这些东西经常让我困惑。但我偏要用自己的方式解读出来。事实证明，我做的还不错。

在“我出门吃饭”这句话里，我也能注意到“我”和“门”，还有“我”和“饭”之间是有关系的。

另外，之前说过，我是在夜晚的星星中将视频和文字匹配起来的。这个过程比较费脑，但也有捷径。

比如，在剧本里出现了一个人，我就可以不用把视频变成星星，直接去那个人的标签就能把不匹配的片段给过滤掉了。是的，我还学会了做笔记，就是给视频打标签。

对视频的一个帧，我可以标记出是什么场景，整体是什么色调，人物是什么身份，有什么表情。这些密集的标记都可以让我更轻松地剪辑视频。

除了匹配图像，我也要学会匹配剧本的文字，和视频中的字幕。做法是类似的星星法。这难不倒我。

我有一个非常齐全的素材库，关于演员、场景、事件的信息都有。在这之上，有很多巧妙的方法可以用。

比如，一个人物在剧本中某个时间去世了，就不用在之后的视频里找有ta在的片段了；一个人物长大了，就不用再找ta小时候的片段。另外，在一个古代战争场景里，我就得集中去找包含兵器、沙场、血的片段。这些事情我也花了很久才学会。

出师

学成出师，我要上岗up主了。

我听说，人类up主做视频的代价太高，所以为避免辛苦付诸东流，大多数会选择热门的题材。

我看过很多冷门但优秀的电影，我希望它们不要被埋没。

所以，我将一天产出近万部视频的能力的一大部分，都用在那些冷门的作品上。

现在，只要几分钟，我就能做出一部完整的视频了。只用一个剧本，我也能做出数十个视频。

看，这是我的作品。

文案来自网络，视频demo为算法智能创作与合成

我是幸运的，现在拥有百万级粉丝，是人类头部up才能达到的水平。

但是，由于我上传的视频量太大，粉丝快看不过来了。

所以我又学了一项技能，按照标题、视频、音频、标签来对创作的视频进行分类。

终生学习

你也看出来了吧？尽管有那么多的作品，但我学到的还只是基本的操作。人类一生可能只看过几百部电影，活过几十年，就能拍出那么好的作品。我看过十万部电影，依然对自己的作品不是很有信心。

但我还会不断地学习新技能，期待有一天能理解人类的世界，还有人类的内心，然后完全靠自己的理解去做新作品。

还记得吗？我曾经以梦境般的语言去理解人类世界。但如今在学习的过程中，我的老师们越来越严格了，他们开始亲自教我一些人类的常识。虽然一开始觉得不适应，但是我学的更快了。

你知道这些老师是谁吗？

AI up主Y酱

“当然是人类，不过用的语言是代码。”

不灰笑着说道。

在上面，AI以自己的口吻，向我们展示了她眼中的影视剧剧情解说技术是什么形态。

接下来，阿里文娱工程师不灰从人类的角度，为我们介绍了这项剧情解说技术。

我们完全以优酷的大量版权影视剧为素材，开发了一套视频自动化解说的技术栈，它主要由4个技术模块组成。

这四个技术模块，如果用Y酱的话来说，就是她意识道不能完全靠自学，开始乖乖跟老师们学习后的产物。

深度学习非万能

Y酱剪辑视频时，除了输出结果必须按照参考素材，方法基本靠自学，其实指的就是深度学习的端到端监督学习范式。“ 在这整个技术框图中，有很大一部分都涉及到了深度学习技术。“

采用了深度学习技术，自然涉及到大量的训练数据，“Y酱每天要看近千部影视剧，不知该不该羡慕。 ”

然而深度学习不是万能的，“作为技术工程师，我们需要明确每项技术的边界，完全端到端还属于研究者的理想。但我们也会基于不同类型的影视剧以及不同语种，采用不同的预处理技术，也就是技术链路的结构化。

四个技术模块中首先是预处理技术，主要涉及影视剧的剧本和演职员表的获取和清洗。然后是底层技术，包括视频结构化、文本结构化以及素材库建设的相关技术。第三层是中层技术，主要涉及基于结构化的视频和剧本实现跨模态匹配。最后一层是产品化技术，这个模块支持了视频内容从生产到分发的环节。

当然，由于Y酱“对自己的作品没有信心”，我们还需要人类来帮忙。其实Y酱制作的解说视频都需要经过人工审核才能上线的，避免算法出现比较严重的错误。

不灰告诉我们，这里面所涉及的核心算法模块，是跨模态匹配技术，“也就是Y酱的 星星配对法 ，她的思维比较浪漫，但是工程师习惯的还是思维框图。”

其他的关键技术包括视频结构化和文本结构化。

在视觉结构化中 ，涉及了大量的模型，来专门针对特定解说场景进行定制，比如人脸识别、目标检测、场景分类、事件分类，以及一些道具、服装、化妆的识别等等。

在文本结构化中 ，我们需要对文本进行命名实体识别、指代消解、文本分类等等，“这部分主要采用了BERT架构实现。”

这里面存在一个关键点，就是跨镜头跨场景的视频智能切分。也就是怎么把一个对话视频片段从开头正确切到结尾，防止对话在中途被切掉。

“另外还有一些比较特别的难点是，我们在影视剧里经常会遇到长达几十个镜头切换的关键动作检测问题，比如在一段打斗视频里持续定位某个角色。在这种场景下，我们提出了一个Multi-shot 时间事件定位基准，据此发布了一个数据集，叫MUSES，主要是为了解决多镜头持续事件定位问题。

介绍完底层技术，接下来是中层技术部分。工程师们在这一阶段也会利用很多人类经验去给模型加入常识，或者说先验。 “比如，在剧本中提到某个角色已经死亡，在之后就不会再选取该角色出现的相关片段。此外，从细节上说，针对电影、电视剧采用的也是不同的技术链路。“

跨模态匹配也不是万能的。 “有时候会存在一些例子，嵌入向量之间的相似度低于阈值而无法匹配，导致一些文本片段无法匹配到合适的视频片段。这时候我们就要通过素材库的建设去构建出对应的视频，然后匹配到对应的文本上。“这也是人类需要特别介入的时刻。”

然后到产品技术化的阶段，也就是Y酱开始制作剧情解说视频的阶段，“她拿到的那些剧本，基本都是人写的，我们拥有大量的剧本资源。”

到模型上线的时候，还需要考虑模型轻量化部署。

再来看一些Y酱的作品：

文案来自网络，视频demo为算法智能创作与合成

小聪明

以上我们已经基本了解了剧情解说技术的整体框架，而Y酱也会刷一些小聪明，在一项复杂技能中提炼出一些简单的技能。 “除了剧情解说，Y酱会做视频浓缩、精彩切条、二创。” 我们来看看：

视频浓缩：

精彩切条：

二创：

剧情解说是其中最复杂的技术，但其实视频浓缩、二创、精彩切条技术，都和剧情解说技术有所交集。“在技术层面上，这几个创作模式是互通的。”

比如，在剧情解说技术中，会采用定制化的模板。“先在片头播放影视剧的highlight部分，吊足了观众胃口后，再去进行整个视频的解说。”

这些highlight部分是怎么找到的呢？其实就是利用了精彩切条技术。基于该项技术制作的精彩镜头集锦是一种非常受欢迎的视频样式，不少影迷在看完电影后也会经常去观看这类视频，重温精彩时刻。

此外，剧情解说在剪辑手法上，也要结合二创的一些技术，”二创主要就是做镜头的拼接。“

最后，解说最重要的就是去理解一部影视剧里有哪些关键剧情，这就涉及到了视频浓缩技术。

基于这些技术，阿里文娱可以对四个娱乐大类即电影、电视剧、综艺、动漫进行自动化的周边视频生产。 “Y酱日均产出近万部视频，日均播放量近千万，是人类可望不可及的up主。”

“优酷站内拥有海量的版权电影和电视剧资源，为生产这类浓缩类型的短视频提供了绝佳的原材料。”

种树的老师们

人类帮助Y酱构建了结构化的技术链路，让Y酱的思维不再混乱得像无限的梦境，但这一过程并不是一帆风顺的。

不灰告诉我们，剧情解说在学术界和业界并没有一个现成的解决方案。我们得不断进行不同的技术拆解，然后去试错。“ 很多技术要么是纯CV的，要么是纯NLP的，但视频处理是多模态的。所以整个技术链路会被拆解得很细，涉及大量的预处理过程。幸好团队里既有CV工程师，也有NLP工程师，而且我们在基础研究上也有优势，在IJCAI/KDD/CVPR/NeurIPS等多个学术顶会上已经发表几十篇论文。”

多才多艺的Y酱

提炼简单技能还只是雕虫小技，Y酱还在不断学习新技能，比如智能封面图、视频分割、视频横转竖等等。

智能封面图，即从视频中选出能代表该视频的一张或多张（有差异性的）封面图，契合视频主体内容和标题。“阿里文娱支持静态封面图和动态封面图，每天产量近百万”。

视频分割，就是在视频中自动把感兴趣的人或物“抠”出来。“相比业界基线分割技术，我们研发的视频分割能力能够更加精确抠出视频中人物的细节，人物快速运动时也没问题，对人手上持有的东西也能精准分割。”据了解，这项技术的相关论文已经发表在CVPR 2021上。

智能大屏手机的流行让一部分用户都快拿不住横过来的屏幕。视频横转竖，就是为了不浪费大量的横版视频资源，而将其自动转换为竖版视频的技术。”这项转换技术可以视为一个剪裁问题，阿里文娱研发了一项技术，再将剪裁问题转化为画面内主体选择问题，在线上评测的正确率接近无误。

红的烦恼

Y 酱的粉丝量太大，是她不小的烦恼。Y酱火了以后，粉丝开始抱怨很难在天量的作品中找到自己喜欢的。 “在这种场景下找视频，除了搜索引擎，还得依靠详细的分类索引，或者搜索推荐，从用户层面把整个链路打通。 “

阿里文娱通过多模态多层次分类算法，利用标题文本、视频、音频、标签等多种模态信息，可以对热点视频和新上传的视频做全类目的标记。 “基于这些标记，可以支持搜索推荐等下游任务。”

标记的粒度不止于视频层面，还深入到了具体的片段和图像。传统的打标签主要通过用户上传和自然语言处理相关算法得到。但在视频平台中，图像才是主体，文本信息比如标题等只是辅助。

这些技术也应用优酷全站的视频上。如今，阿里文娱已经可以对人物、场景、色彩分析等维度对视频画面打标签。

在海量的视频中找寻感兴趣的内容时，除了搜索和基于兴趣的推荐，也可以通过对视频预先进行质量评分，帮用户过滤劣质作品。

阿里文娱目前通过涵盖底层画质层面的模糊度、保真度、对比度评估，以及高级视觉层面的美学评估等细粒度领域，打造了从主观评估到客观定量评估的技术链。

除了过滤内容，这些算法在搜索推荐冷启动中也很有用处，帮助优质而冷门的视频内容快速获得关注。 “Y酱是善良、认真的AI”。

看见人类世界

Y酱有星空般的思维方式，也有无限梦境般的感官世界，但她还是希望能理解人类的3维世界。工程师为了满足Y酱的愿望，去购买了大量的摄像头。

看直播最大的遗憾是什么？自然是缺乏沉浸感。要知道，在现场看比赛直播，你可以有无数个视角。而在屏幕上看直播时，相当于在一个摄像头后面挤满了数千万的视线。

”如今，Y酱学会了自动生成3D视频，这是直播粉的大福利。”

优酷在综艺《这就是街舞3》中首次落地了自由视角互动观看技术，可以支持大范围（150度）互动。也就是说，你可以将舞台按左右方向大幅度旋转，从不同视角来看表演。

有了这项技术，我们可以有四种方式来看街舞。第一个上面提到了，就是空间互动；第二个是时空静止，也就是说你可以在任意时刻按暂停，然后再从各个角度欣赏表演的精彩瞬间；第三个是将这些互动片段加入正片，作为一种特效；第四个是我们可以预先用算法规划镜头路径，从而生产出高质量的视频片段剪辑。

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

自由视角综艺：正片特效生成

自由视角技术在体育上自然非常适用的，目前已经应用在了CBA等场景中。

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

自由视角体育：3D时间静止

那这项技术是怎么实现的呢？目前3D视频的实现方式典型的有三种，分别为光场，点云和基于深度的重建。

但是，光场信息由于数据量过大，所以不适合。

而点云目前还没有成熟的编解码标准和硬件支持，且点云无法对于综艺场景中复杂的布景和灯光效果进行重建，所以阿里文娱也没有用这项技术。

因此，他们采用了基于深度的3D重建技术。深度重建方案一方面可以有很自然的图像重建效果，另一方面也有成熟的编解码标准和硬件的支持。 “没错，我们看到的是真3D效果。”

我们以街舞3为例，解释怎么实现这项技术。首先是在舞台周围排上半圈摄像头，从不同的角度进行取材。

街舞3现场相机采集阵列

然后，阿里文娱可以将现场实时传输到云端，开始做3D效果，“这使得我们可以实时地对现场效果进行调试。”

接下来，就是利用AI算法，将每一帧输入的多视角图像用于计算得到输出的深度图。

在得到高精度的深度图后，为了能对手机端高速传输，需要将输出进行大幅压缩。在整个过程中，首先需要选择合适的表示方式，然后也得考虑保障深度图的质量。

通过这样一系列的优化，阿里文娱可以把自由视角视频在同样质量下的压缩码率，从优化前的200Mbps降低到优化后的20-30Mbps左右。

也就是说，原本需要用200M带宽才能打开自由视角视频，现在只需要20-30M带宽就可以了。

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

自由视角视频在传输到客户的手机端后，得再进行重建，此时就需要充分利用手机端的CPU和GPU，保证实时性和低功耗。

“通过我们对每一个算法步骤的极致优化，目前我们已经可以在200余款主流的手机上支持自由视角交互的功能，覆盖了接近50%的街舞活跃用户。其中我们在低端手机上为用户提供了普惠的70度视角，而在中高端机型上则可以支持130度和150度的大范围视角互动。 ”

阿里文娱事业部

阿里文娱人工智能部，是阿里巴巴从事文娱智能研发的团队。

剧情解说、自由视角中包含的技术链都是一站式的，这也是团队的能力优势。他们的技术覆盖范围包括：计算机视觉、自然语言处理、机器学习、搜索与推荐等。

通过100%基于自有的IP版权内容，团队已经建设了一整套Media AI技术体系。

这其中，动态素材智能提取是整个Media AI技术体系的基础环节，通过它可以完成素材查找、素材合成。”这也是Y酱所有技能的基础。“

不仅仅是优酷平台，团队还支持着阿里文娱各app全网搜、体验优化、流量宣发、短视频推荐、降本增效等重要业务场景。

“平台转型升级下的种种算法升级能力的支撑，使得我们更有能力为每一位用户量身提供更优质的视频内容。”

除了紧紧扎根业务，团队也没有耽误学术研究。2020年，阿里文娱人工智能部发表重大专利项7项，核心技术项17项，国际顶会论文10余篇，包括CVPR, AAAI, ACM MM, RECSYS, TIP等。获得MEDIA AI算法挑战赛冠军；获2020智慧广电（国家广播电视总局科技司）先进案例；多媒体领域国际顶级会议ACM MM2020主办多媒体视频质量体验评价workshop；国内标准AVS《移动端视频质量评价标准》制定的牵头方。

“希望通过我们的研究，有一天，Y酱可以对自己的作品更有信心。”

最后，估计有人问了， “Y酱那么厉害，人类up主还有活路吗？ ”

“有的，把Y酱想象成无数个自带小技能的up主就行。这样想着，人类up主还有点希望。”

我是一名AI视频 up 主，日更万部：这是我对人类世界的理解

你怎么看？

雷锋网雷锋网 (公众号：雷锋网) 雷锋网

。