你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕瞅你
钛媒体注:本文来自于微信公众号浅黑科技(ID: qianheikeji),作者为木子Yanni,钛媒体经授权发布。
比「改编自真实事件」更震撼的,是直接站在真实面前。
前段时间,一位叫做大谷的 90 后北京小伙儿,无意中看到了一段拍摄于 1920 年左右的珍贵影像视频,他灵光一闪,借助科技的力量,用人工智能对视频进行了修复,让我们有幸目睹了 100 年前北京城真实的烟火气。
街道上,行人、车马交错而行,《骆驼祥子》里的黄包车穿梭而过;如今要深入沙漠才寻得到的骆驼,正驮着货物稳步走在大街上;小小的院儿门口,有催促孩童的动,也有挑担卖货的静,甚至在 30 秒内,就上演了三种不同的问候方式;与现在不同,那时街上悠然闲逛的大多都是男性;一个转头,还能瞅见街边兴致盎然接力逗狗的老哥。
三种问候 ,截图来源于YouTube:人民日报
没想到,时隔月余,大谷的“老北京 Vlog”第二弹又来了。
这一次修复的视频,拍摄于 1928 年前后,与第一弹视频仅相隔 10 年,却能明显看到变化:十年前,人们在街头看到摄像机时,或盯住几秒钟后仓皇逃开,或原地看呆逐渐石化,或因好奇而一步三回头,想看又不敢看。
众人惊呆相,截图来源于YouTube:人民日报
十年后,在小院儿里剃头的随便一位路人小伙儿,都能神态自若的对着镜头,潇洒的拍拍自己刚剃好的头,用地道的老北京话反复念叨着:“不错、剃挺好,不错、剃挺好...”
“不错,剃挺好”,截图来源于B站:大谷的游戏创作小屋
街边一拥而上打午饭的孩子们,眼睛盯着摄像头,等着端饭的手却丝毫没受影响:吃饭最重要,害怕?不存在的。
“我也要、我也要”,截图来源于B站:大谷的游戏创作小屋
你再瞧这个舔碗的靓仔,是不是跟你小时候如出一辙?
“真香,还想要...”截图来源于B站:大谷的游戏创作小屋
此外,视频中还有摩肩接踵的集市、街头的民俗乐队等场景,一个熟悉又陌生的年代,瞬间跃然于眼前。
古人不见今时月,今月曾经照古人。
你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕看你。视频中的他们,见证了历史,而我们正在回望,如果要说遗憾,大概是模糊的画面,遍布历史划痕;黑白的色调,失了时代本色。
于是,大谷利用人工智能,从三个方面对视频进行了修复。值得一提的是,第一弹视频中的声音,是用素材后期配的,而这一次的修复,全部都是时代原声,有兴趣的话,各位可以去看完整版视频(比如 B 站搜索「大谷的游戏创作小屋」)。
接下来,我们一起来看看,当你在看修复版视频的时候,视频到底修复了些什么。
(一)顿顿顿顿顿
如果你看过早期的影视作品,比如 83 版射雕、86 版西游记、94 版三国,大概率会有这样的感受:明显看到画面在跳动,仿佛摄影师得了帕金森一般。
为什么会这样呢?
我们需要先弄清楚一个问题:当你在看视频时,你看的到底是什么?剧情、演技,还是中间插播的广告?都不是。
其实是一连串图片。
我们现在看到的电影,绝大多数都是 24 帧,意思是每秒由 24 张图片组成。电影在播放时,24 帧既能保证你看到的画面是流畅的,也能恰到好处地继承优良传统:最初,电影拍摄离不开胶卷,虽然帧数越多,细节表现就越好,但每一帧都是钱啊,经过认(扣)真(门)对比,优秀的电影人发现,24 帧是性价比最高的选择,既不会浪费胶卷,画面的流畅度也能达标。尽管如今已经是数码时代,但 24 帧的传统依然保留了下来。
如此看来,老旧视频卡顿的问题就有答案了,因为帧数不够。刚才有提到,要想画面流畅,每秒就不能少于 24 帧,而老电影是低于这个数字的,比如大谷修复的那部 100 年前“老北京 Vlog”,帧数都在 10 以下,用我们已经娇生惯养出的好莱坞大片观感来审视,只能是囫囵吞水,“顿顿顿顿顿”。
帧数不够,补帧来救。但要清楚一点:因为补出的帧,原本是不存在的,所以补帧需要依靠想象力。
传统的补帧方法主要有三种:帧采样、帧混合,以及光流法。看到这儿,有句话恐怕要应验了:专有名词一出现,吃瓜群众走一半。其实,Duck 不必,我们逐一来看。
第一种,帧采样。是指把前一帧复制到后一帧,简单来说就是 112233。
第二种,帧混合。是指在前后两帧中间合成一个新的帧,同时调整新合成帧的透明度,做出画面过渡的感觉,也就是1、1.5、2、2.5、3。
第三种,光流法。什么是光流呢?当一只蝴蝶从你眼前飞过,蝴蝶的移动轨迹会在你的视网膜上形成一连串变化的图像,仿佛光在流动,于是,你就看到了蝴蝶的飞舞路线。换句话说,光流有记录物体位置移动信息的能力。光流法补帧,就可以简单理解为,找到物体在相邻两帧之间的位移,在位移中补出中间帧。
举个栗子,我们看下面这张图,假设物体在帧 1 中的位置是 1,在帧 2 中的位置是 3,在帧 3 中的位置是 5,那么,根据光流确定相邻两帧中物体的位移情况,就能在 1 和 3 中补出 2,在 3 和 5 中补出 4,这样一来,原本 3 帧的视频就补成了 5 帧,看起来,物体的运动就会流畅很多。
运动物体的光流
以上这三种补帧方法,在物体处于平移状态的时候,效果比较好,但是,如果物体处于旋转跳跃不停歇的状态下,效果就要大打折扣了。比如一只正在跳旋转舞的小熊,上一帧你还只能看到臀部,下一帧它的小短尾巴就出现了,像这种上一帧没有、下一帧突然出现的情况,传统的补帧方法就不太好用了。
另外,在补帧的时候,还有一种非常难处理、但又非常常见的情况,就是有其他物体乱入,导致目标物体被遮挡。
比如你在海边想给女朋友拍一段冲浪的视频,但海里都是人,不停有人挡在你女朋友面前,这种情况下,如果你后期想把视频从 24 帧补到 30 帧,就非常难,你想,软件正在专心脑补你女朋友的冲浪动作,一位路人甲突然出现,把软件的预测给打断了,画面就会出现一种情况:叠影。
叠影大概就是这样,你感受一下
针对这种复杂场景下的补帧,AI 的优势就显现出来了。
在修复 100 年前的“老北京 Vlog”时,大谷用到的 AI 工具是 DAIN (Depth-Aware Video Frame Interpolation),中文名叫做“深度感知视频帧插值”,这是一个开源的人工智能补帧软件。它的优秀之处在于兼顾了光流和深度,不但能准确追踪物体的位置移动,还能检测到物体遮挡。光流刚刚已经讲过了,这里再来说说物体遮挡检测。
DAIN 的架构图
你眼中的视频是平面的没错,但视频中的世界却是立体的。DAIN 利用算法,可以猜测出每一帧中不同物体的深度信息,根据深度的不同,AI 就能知道是谁遮住了谁,接下来,根据“遮挡物近、被遮挡物远”的原则,就能较为精准地确定画面中物体的边缘轮廓,避免出现叠影,从而产生更好的补帧效果。
深度图中,不同颜色代表不同深度值
(二)糊糊糊糊糊
对于视频来说,画面流畅远远不够,清晰也很重要。
如果画面很朦胧,你连主演的表情都看不真切,就不能揪着 Ta 的演技口吐芬芳,从而失去一个闲谈时的八卦谈资,进而你会质疑当下的视频制作水平,你的不信任就会阻碍视频行业的健康发展,为了这一切不会发生,画面必须要清楚。
提到清晰度,你肯定会想到 480P、720P、1080P、2K、4K,那么问题来了,怎么才能把 480P 的视频提升到 720P 呢?重拍。
除了重拍呢?那就是超分辨率重建。
超分辨率,意思是用硬件或软件提高原图的分辨率,这个处理过程,就叫做超分辨率重建。
超分辨率重建技术可以分为两种,一种是多合一,多张低分辨率图片合成一张高分辨率图片,另一种是单重建,用单张低分辨率图片恢复一张高分辨率图片。大谷在修复 100 年前的“老北京 Vlog” 时,用的扩增分辨率工具 ESRGAN,就属于后者。
ESRGAN 全称叫做「增强型超分辨率生成对抗网络」,是由 SRGAN (超分辨率生成对抗网络) 升级而来,它们都是基于生成对抗网络的超分辨率方案。
生成对抗网络 (Gan) 可以看做是两个小人在博弈,一个小人叫做生成模型,另一个小人叫做判别模型,生成模型小人的任务是以假乱真,用超分辨率技术造出可媲美原图的照片,而判别模型小人的任务则是明辨真假,判断眼前的照片究竟是原图还是对手生成的,两个小人在长期的斗智斗勇中,水平越来越高,基于这个模型训练出来的 AI,就能够越来越精确的重建出高分辨率图片。
ESRGAN 不仅继承了前身 SRGAN 优良的全局把控力,而且通过调整算法,弥补了之前的短板:容易丢失细节。如此重建出来的图片,与原图相差无几。
从下图中可以明显看出,用 ESRGAN 重建的照片,细节 (胡须) 呈现的更好。
SRGAN、ESRGAN 还原效果与实际画面的对比
但不得不说,有时候,“画至清、则有瑕”,画质太过清晰,也难免会把“瑕疵”推到观众眼前,这一点在老电影修复的过程中,就常常会发生。比如在《亮剑》修复版中,就出现了无比醒目的穿帮镜头:
截图来源于《亮剑》修复版
所以,在此友情提示:观影重在沉浸感,你可以专注于看剧情、看演员、看特效,别的就算了,能过就过,千万别较真,比如我就根本没有注意到某部电影中精良的化妆技术。
截图来自于某部忘了名字的电影
(三)给黑白加彩
1839 年,法国画家达盖尔成功做出了世界上第一台照相机,人们惊奇的看着这个奇怪的木匣子,兴奋又忐忑地围观着这门独一无二的“新艺术”。然而,当照片呈现在眼前,人们的兴奋却变成了失望。
照片,记录下了每一个精致的细节,可是颜色去哪儿了呢?
本着“顾客就是上帝,上帝不能失望”的商业准则,一场声势浩大的色彩捕捉行动开始了。科学家、摄影师、艺术家都参与其中,拼命想找出能让照片显示出色彩的办法,然而一圈下来,毫无进展。
情急之下,一个替代方案诞生了:上色。
值得一提的是,绝大多数情况下,摄影师和上色技师并不是同一个人,最后的呈现效果,极大依赖于技师的理解和审美。所以你瞧,照片上色这个事儿,从一开始就属于二次主观创作。
照片上色主要经历了三个阶段,首先是彩色胶卷问世之前,当时的照片上色纯靠手工,也就是画。鸦片战争打开了中国国门,让摄影技术进入了人们的视线,也催熟了国内的照片上色行业,甚至在新中国成立之后,还专门举办了上色技师评比大赛,大家说好,才是真的好。
上世纪30年代,明星周璇17岁时的手工上色照片
手工上色从工艺上来看,分为水色和油色两种,水色就是水彩类颜料,优点是画面通透,油色则是油性颜料,优点是保存持久。相比之下,油色更受欢迎。
上色不是直接用笔在照片上画,需要先给照片褪色:先用铁氰化钾,把照片上的黑色变成白色;再用硫化钠,把照片整体调成棕色;接下来,就可以在这张棕色的“画布”上进行填色了。
1935 年,柯达克罗姆彩色胶卷问世,彩色摄影成了主旋律,照片上色也走进了第二个阶段:数码调色。工具就是各位熟知的 Photoshop (PS),可谓是“PS 在手,万物皆可彩色”,不变的,依然是二次主观创作的属性。
时间再往后走,照片上色来到了第三个阶段:AI 填色。
人工智能本不认识颜色,看的多了,也就会猜了。修复 100 年前的“老北京 Vlog”时,大谷用的 AI 上色工具叫做 DeOldify,是由一位美国小哥首发在 Twitter 上的开源软件,我们先来看几个它过往的作品。
DeOldify 的工作步骤大概是这样:对照片进行图像分割,识别出图像中的所有元素,接下来,学习大量包含这些元素的数据集,填鸭式记忆物体的常规颜色,比如海洋蓝、树木绿,最后,学以致用,给黑白照片填充上合理的颜色。
如果给人工智能一个完美的数据集,它恐怕能给灵魂涂上颜色。
起初,DeOldify 只被用来做照片上色,鉴于它出色的表现,才开始让它为老电影上色,从效果来看,依然惊艳,正如在“老北京 Vlog”中的表现一样,DeOldify 带我们穿越历史,跳出曾经无数次背诵过的历史考点,隔着百年时光,感受属于小人物的平凡和精彩。
Jason Antic借助DeOldify 为1936年的老电影上色
而在第二弹视频中,大谷使用了 AI 新技术 DeepRemaster,在全局表现效果来看,更加优于 DeOldify,这就是 AI 后浪的力量。
不过,从实际效果来看,惊艳中仍有遗憾,比如视频中的上色不是 100% 精确的,因为人工智能学习使用的数据集,还不能涵盖这一历史时期的所有色彩样本,所以只能说,这种上色效果是合乎常理的,是人工智能基于现实所带来的浪漫复现:给不了你真实,只能给你一种真实的可能性。
突然想起一句话:我们所谓的故乡,不过是祖先流浪的最后一站。
回望视频中的这些人,他们一生经历了些什么,我们不得而知,但在 AI 的修复下,时光突然被折叠,我们有幸得以瞥见他们人生中的一瞬真实,已经是科技最好的馈赠了。
是路人,也该好好路过。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App