老北京生活影像和3D AI主播为什么在2020年火爆全网?

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

AI给我们的生活带来了许多乐趣,从AI美颜到AI变脸,再到今年火爆全网的AI修复1929年 老北京生活的3分钟影像资料 和 全球首个3D版AI合成主播 。这些新鲜有趣的应用为什么在2020年火爆全网?背后推动力是什么?

老北京生活影像和3D AI主播为什么在2020年火爆全网?

火爆B站的AI修复老北京影像--盲人"爵士"乐队

老北京生活影像和3D AI主播为什么在2020年火爆全网?

全球首个3D版AI合成主播新小微,图片来自新华社

北京国际广播电影电视展览会(BIRTV)2020期间的一场媒体活动上,NVIDIA专业可视化亚太区业务主管沈威表示,传统“离线式”渲染、预录式的内容无法加入更多互动和特效的直播视频内容已经不能够满足当前广播电视行业的需求,尤其是当下的AI时代。利用NVIDA GPU的实时光线追踪技术及深度学习技术,可以为广播电影电视行业带来更多不一样的体验。

AI带给广电行业的两大变革

修复老北京生活影像和3D AI主播恰好代表了AI给广播电影电视行业带来的两个变革——对过去缺损画面、素材残缺像素的“无中生有”,以及实时渲染带来的更强互动性。

NVIDIA 中国区高级技术市场经理施澄秋表示:“我们看到广电行业的趋势是从OTT(流媒体服务)向SVOD(视频点播)过渡,并且市场也在蓬勃壮大。在这个增长过程中,要么内容极剧爆炸、要么让老影片有更高分辨率。”

GPU“无中生有”修复过去

7月份火遍全网的1929年的老北京生活视频,不仅用AI对视频进行上色、补帧、提升了分辨率,还通过时代原声还原了老北京味。这个视频的火爆离不开新的AI算法DeepRemaster,当然也需要有强大硬件作为支撑。

为图像处理而生的GPU是不二的选择。据悉,NVIDIA有一项叫做NGX的技术,先用像DeepRemaster这样自动完成画面修补、美化和降噪的AI算法对GPU进行训练,然后NGX就能“无中生有”来做画面插帧、超级分辨率、慢动作等。

施澄秋对雷锋网 (公众号:雷锋网) 表示,对于插帧而言,如果用传统的人工方式来做,一天只能做2-3帧,借助基于GPU的AI技术后,一天的插帧和修复可以达到百万帧级别,这是一个巨大的效率提升。

AI插帧还能在大幅缩短周期的同时实现更好效果。施澄秋以很多电影中都有千军万马的场面举例,如果用一匹马复制,不仅呆板而且运动轨迹都一样。但用人工的方式周期长且成本高,借助NGX技术,就可以得到形态各异的马。

AI插帧能让老视频有更好的流畅度,达到1080P甚至4K、8K。借助AI插帧和着色技术,还能够实现超级慢动作。超级慢动作是用超高帧率的摄像机(120桢/秒、240桢/秒)拍摄视频,然后再以低帧率(30桢/秒、40桢/秒)播放。

但很多素材比如用手机拍摄的突发新闻本身就只有30桢/秒的帧率,如果做慢动作就会像放幻灯片一样卡顿。利用NVIDIA NGX的“无中生有”技术生成帧间像素,就可以得到非常平滑逼真的慢动作。

帧率决定着视频的流畅度,分辨率更直接的影响着观感。 “SUPER-RES(超级分辨率)不是新概念,以前要实现SUPER-RES可能需要非常昂贵的硬件,且制作周期非常长,现在利用我们的NGX AI技术就可以做实时4K分辨率的超级分辨率。” 施澄秋表示。

那效果如何?当虹科技就基于NVIDIA图灵(Turing)架构GPU推出了离线超级分辨率产品,支持标清转高清/4K、高清转4K/8K等。借助AI算法训练高频细节,实现高保真缩放。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

当虹科技AI超分技术

还有强氧科技的DaVinci Resolve,这是一款融合了专业8K剪辑、调色、视觉特效和音频后期制作工具。能够通过插补帧做慢动作,惊艳的自动调色,也能做匹配内容、物体自动移除等。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

值得注意的是,当虹科技和强氧科技都提到了NVIDIA实时光线追踪GPU的性能优势。 根据当虹科技给出的数据,不同的NVIDIA GPU的AI超分深度学习推理性能相比CPU有10倍到25倍不等的性能优势。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

强氧科技给出的4K BRAW、6K BRAW、8K BRAW的测试显示,NVIDIA的Quadro RTX 6000相比CPU也有2倍左右的性能优势。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

GPU实时渲染增强互动性

“无中生有”技术更多的是对已有视频素材的增强,面向未来,GPU带来的是互动效果的增强,让广电的单向推荐也借GPU的AI功能变成双向智能推荐。

文中开头提到的AI合成的主播,其实2018年就已经有,但受限于当时的AI技术以及计算、渲染能力,那时的AI主播只有面部表情,没有肢体动作等。因此,今年全国两会期间进行新闻资讯播报的3D版AI主播新小微一亮相就获得了极大的关注。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

图片来自新华社

GPU的实时渲染能力决定着数字人的逼真程度,据悉,要实现一个特别写实的数字人,脸部的模型、加上毛发等面数接近500-600万。这个量级上,要做到面部表情、整个身体实时驱动,需要帧率保持在50-60帧之间,因此算力是主要的瓶颈所在。

博采传媒前期部总监沈辰奇也表示:“2017年我们推出了国内第一部全部用GPU渲染而成的动画电影《昆塔:反转星球》,GPU渲染比以前用CPU渲染的成本优秀太多,但仍然是我们制作流程的一个瓶颈。”

施澄秋说:“GPU在3D建模、3D图形图像电视广电素材的片源制作中非常有优势。图灵架构的RTX GPU非常擅长实时渲染,能够满足数字人的渲染能力和算力要求。另外,交互式、对话式AI也可以应用到数字人中。”

尝到了GPU渲染整片的甜头,博采传媒在继续探索纯第二部GPU渲染动画时,想要实现基于Unreal Engine(虚幻引擎)实现虚拟场景的反向投射。投射屏的尺寸规划是800平米,驱动这个巨型屏用NVIDIA GPU进行实时渲染测试还是有点慢。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

“我们最后选择了NVIDIA RTX 8000,利用nDisplay技术,实时驱动1.8亿个像素点。在实际拍摄时,摄影基地的景深和透视的变化完全同步匹配。这其中革命性的意义在于把后期合成的环节砍掉,做到所见即所得。”沈辰奇指出。

解决了拍摄背景的问题,博采传媒开发了一个基于超写实的数字人项目,可以用于代言、直播等。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

基于虚幻引擎的天气播报,图片来自unrealengine

数字人是给观众带来不一样的体验,Epic Games的虚幻引擎则帮助创作者更好的创新,它被越来越多地用来做实时预览、特效预中期预演、后期预演等。 Epic Games China商务发展经理徐良安表示:“虚幻引擎不仅可以让所有参与制作的人员都可以实时修改,实时看到效果,具有很大的灵活性,还能大大节约成本。”

虚幻引擎和nDisplay技术不仅可以用于线性内容拍摄,还可以把场景分单元或者分组投射到不同屏幕上并进行融合,在演唱会上让观众和表演者能够更好的互动。Epic Games也和美国著名说唱歌手Travis Scott合作,在《堡垒之夜》游戏中进行演出,让粉丝可以一边玩游戏一边观看演唱会,实现了很好的传播。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

实时渲染正在打破行业的边界。 新奥特产品中心总监王宁也表示:“去年开始,4K、8K的内容越来越广泛。以前我们是通过CPU进行渲染加速,CPU能处理更多线程,但实时渲染能力不强,所以我们选择了NVIDIA的RTX系列GPU。特别是像我们石墨超清在线需要实时呈现到大屏幕的,需要GPU的显存能力。”

老北京生活影像和3D AI主播为什么在2020年火爆全网?

 

除此之外,基于GPU的AI也能应用到智能插播广告,通过AI算法插入5-10秒的广告,既不影响观众的收看体验,也让广电的互动变成双向互动。

SDI转向IP,高清视频的时代即将到来

性能更强的图灵架构RTX GPU是让老北京视频、数字人在2020年备受关注的重要因素,但这些AI应用能否普及还有一个关键因素——视频传输。 NVIDIA Mellanox 高级市场开发经理陈龙指出,1080P以前,广电行业的视频传输靠SDI (Serial Digital Interface,数字分量串行接口)。随着4K和8K业务的兴起,SDI不能满足4K视频8G-9G的传输带宽需求。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

如果用4根3G带宽的SDI传输4K视频,成本变高且组网复杂。直接换12G带宽的SDI,由于高速信号在SDI铜缆中传输距离和速率成反比,只能传输大概50米的距离,不能满足广电行业需求。8K的最低带宽需求将达到25G-140G,SDI更难以满足需求。

“我们判断,SDI转向数据中心里的IP解决方案是大概率事件,后者不仅成本比定制化SDI成本更低,带宽也更高。” 陈龙介绍。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

但SDI转换为IP解决方案之后,终端CPU处理协议栈的负载就会大幅上升。为此,Mellanox的网卡集成了Rivermax技术,解决SDI转IP化之后传输标准的问题,也就是通过这个技术发送符合SDI要求的数据。另外,借助是Kernel Bypass技术,将协议栈的大量负载放在网卡,大幅降低CPU的负载。

还有Frames技术,网卡把接收到的每一行像素整合成一张图片后再传输给CPU,也可以降低CPU的使用率。Mellanox的网卡也支持虚拟化和云化,能够满足高清视频传输的稳定性要求,也有助于开拓更广阔的市场。

IP解决方案优势明显,但也面临一层的链路、二层的逻辑链路、三层路由转发、报文缓存等问题,带来了故障的排查就非常复杂。这需要What Just Happened技术,实时监测交换机的状态,以及网卡内部的一些信息,有助于故障的诊断和排查。

陈龙说:“要IP化,只需要将价格昂贵的SDI加速卡换为Mellanox的网卡,可以支持10G、25G、50G、100G、200G乃至400G的传输带宽。 当设备IP化之后,不仅解决了传输带宽不够、传输距离过短的主要的痛点,还降低了整个设备的采购成本。除此之外,因为本身IP是一个弹性的管道,在IP之上能够传输任意格式的报文。”

雷锋网了解到,Mellanox已经与全球各大视频解决方案合作商开发了不同的产品,打入了NBC、BBC、CNN等著名的视频内容提供商。

老北京生活影像和3D AI主播为什么在2020年火爆全网?

雷锋网小结

广电行业正在越来越多地探索与AI的结合,基于更强大的GPU和优化的技术,AI正越来越多的应用于提升分辨率,包括降噪、插帧、插植等应用中,让珍贵的旧视频焕发新的生命力,再次吸引大家的注意力。同时,GPU更强大的实时渲染能力也让直播或者视频内容的制作增加了更多互动和特效,更加灵活和高效的创作方式打破了行业的边界,为未来的创新奠定基础,当然,这里面还需要SDI专向IP解决方案,满足4K/8K的视频传输需求。

面向数据中心的安培架构A100 GPU已经在5月推出,安培架构游戏GPU+Mellanox网卡又会把专业可视化行业引向何方?

随意打赏

提交建议
微信扫一扫,分享给好友吧。