国足热身赛用的 VR 直播,连柳岩也在尝试,这到底是项怎样的技术?
6 月 3 日,国足在秦皇岛举行了一场热身赛,对手是特立尼达和多巴哥。这本是一场普通的比赛,却因在微鲸和乐视的平台上进行了新颖的 VR 直播,登上各科技媒体的版面。
同一天,柳岩也在花椒平台进行了一场 VR 直播。花椒给出的数据显示:直播开始仅 30 分钟,便引来 400 万粉丝围观。两小时的直播中共 600 万人同时在线互动,此次直播期间同时在线人数 PC 端和移动端加起来接近 2000 万。
不足两个月前,喊着「The world is virtual, you are the reality」口号的草莓音乐节,通过「正在现场」app 让宅在家里的乐迷也能「亲临」现场。而早在 2015 年 10 月,腾讯旗下的炫境 app,对韩国组合 Bigbang 在澳门的演唱会进行了 VR 直播。
仅仅半年时间,体育赛事、移动直播平台,音乐节、演唱会,无一不和 VR 直播挨上了边。
(国内 VR 直播不完全统计)
当然,在 VR 技术发展的早期阶段,将当下大多数 VR 直播称之为「全景直播」更加准确。只有 360 度的画面,缺乏深度感知和交互。但任何技术都有自己的发展曲线,即使 VR 直播还处于其「功能机」时代,我们也不妨来看看它的发展雏形。
直播这趟「快车」,为什么也赶上了 VR 这个「风口」?
传统平面视频格式中,不管是体育赛事、音乐节、演唱会直播,还是美女、秀场直播,观众和现场始终隔着一层屏幕,时间上的距离感消失了,但地理位置上的距离仍然存在。
而 VR 技术最擅长的,恰是将观众瞬间带入另一个空间,消除地理位置上的距离感。这种特性就是我们常说的「沉浸感」。国内一个技术供应商强氧科技的描述非常形象地传递出了 VR 直播的沉浸感:
通过多台摄像机的同步拍摄将将所有的方向的影像都记录下来,再通过后期缝合软件进行缝合,就像缝足球一样将平面视频缝合成球形视频。
观众的位置是在球的球心的位置上,观看是一种主动视角的观看,也就是想看哪里看哪里。这种感受是一种被环境所包围的浸入式体验,能够体会到一种身临其境的感受。
更有人将 VR 直播看作是 VR 社交的雏形:从微博到微信,互联网流量的转移同时带动了社交关系的搬迁。而直播被认为是微信之后可能的主流社交平台,VR 社交或许能借直播落地。不少人从 VR 技术的特性和直播平台的流量中看到了商机,这其中就包括国内很多 VR 初创团队。
高盛在前段时间的报告中也预测,2020 年 VR 直播的市场营收规模为 7.5 亿美元,到了 2025 年则高达 41 亿美元。
要分 41 亿美金市场的蛋糕,你得先面对这些挑战
要弄一场 VR 直播,说容易也容易,说难也难。
一位美女主播在桌上摆一个全景相机,打开后像手机直播那样正常录制,全景视频信号推送到移动直播客户端,观众在手机上观看全景视频,或者点击 VR 模式,戴上头显观看,一次 VR 直播就这样诞生了。
当然,这类全景直播的观看体验并不好,最直观的感受就是画面不清晰、拼接缝明显可见、场景偏暗、延迟大,戴上头显可能出现晕动症。
而要弄一场专业点的体育赛事或演唱会 VR 直播,涉及拍摄、视频拼接(包括合成、渲染)、编解码、内容传输(云端处理和分发)、终端输出多个方面,每一块都有挑战。下面我们选择几个主要环节来详细探讨。
拍摄设备
全景拍摄设备大抵可分两类,一种是利用现有相机组装,另一种是一体式的全景相机。
组装式设备最常见的「元件」是 GoPro 或小蚁这样的运动相机。一个支架,支起 6 个或 8 个运动相机,一般上面一个(有的下面也有),其他的环绕一圈。
支架有很多选择,如 GoPro 自己出品的 Omni 和 Google 的 Odyssey。
(Omni 支架)
淘宝上搜「GoPro 支架」也有很多:
不过,由于使用现成的 GoPro 支架会出现各种各样的问题,稍微专业点的团队都根据自研拼接算法设计支架,从而达到 VR 视频内容采集的最优化。
运动相机组装的方案性价比高,适合经费紧张的初创团队。但这毕竟是运动相机,其传感器不比专业摄影机,成像锐度低,对直播现场灯光变化难以快速处理,不利于后期的画面拼接。
更加专业的解决方案会用红龙(Red Epic Dragon)这种专业摄影机来拼接。这种解决方案采集出来的画面分辨率较高,锐度大,但成本高,NextVR 用红龙自主研发的的 VR 直播设备高达 18 万美元。而且由于带宽限制,这类 VR 设备采集出来的高质量画面并不能完全体现在直播中。
(红龙组装的全景拍摄设备)
此外,也有团队用单反相机来组装,像微鲸进行 VR 直播用的就是索尼单反。
(索尼单反组装的全景拍摄设备,图片来自微鲸 VR)
另一种是一体式的全景相机,通常前后各有一个广角摄像头。这种方案性价比较高,使用方便,能满足全景直播的基本要求,但缺乏立体效果,视频质量还有待提升。
国内从业者用于 VR 直播的一体机有:Insta360, 完美幻境 Eyesir, 得图 F4, 理光 THETA, ZMER ONE 等。
虽然可用于 VR 直播的拍摄设备不少,但具体选择得考虑灯光、距离、人物、成本方方面面的因素。
(主要全景相机对比)
拼接
拼接分为后期拼接和实时拼接两种,一般的全景拍摄可以采用后期拼接,但直播必须实时拼接。
用组装式的拍摄设备,通常会在现场假设专门的 PC 服务器,对视频进行实时拼接。这其中,又分为两种。
「一些技术团队会开发一个 PC 拼接软件绘制到屏幕上,但由于程序完善性不足,需要借助于第三方录屏软件 OBS(Open Broadcaster Softwar)再次将屏幕上绘制的内容录制压缩后,通过PC千兆网传送给远端服务器。这种抓屏的 VR 直播方式,最高只能做到 1080p 的画质,且容易受到各类误操作的干扰,直播稳定性较差,用户体验和实用性都不是很好。」完美幻境表示。
另一种配合非常高端的PC,连接拍 摄设备的实时数据流后,通过 CPU/GPU 进行计算得到全景视频流,用 PC 进行流媒体打包后实现直播。这样的方式虽然不用 OBS 抓屏,但是基本方法类似,想要实现 4K 画质的直播,需要配备万元级以上的 PC 才可实现。相比抓屏的方案,这种方式的直播稳定性稍好一些。
(图片来自微鲸 VR)
而一体式的拍摄设备通常配备机内实时拼接功能,如 ZMER ONE, Insta360 和完美幻境 Eyesir。「每秒 30 帧的机内实时拼接对芯片运算量要求非常大,对算法和芯片性能及散热都有很大挑战。」ZMER ONE 钱力对 90Hz 表示。
即使具备了优秀的拼接算法和性能强大的服务器,拍摄现场很多因素对画面拼接依然有不少挑战。
例如,演唱会现场灯光环境非常复杂,舞台灯光变幻无常,观众席通常较暗。如果采用运动相机组装的方案,演唱会现场的来回扫射的激光不小心直射到其中某个镜头,运动相机的光圈会自动收缩,其他的则没有变化。
这时候拼接起来画面就会亮一块、暗一块,过渡不自然。通常解决办法是,团队自己开发多镜头同步控制软件,统一好每个镜头的光圈快门和白平衡。
另外,如果人物离相机太近,穿越拼接缝时会出现「鬼影」。因此,VR 直播拍摄时就有了安全距离一说。比如,用 GoPro 组装的相机,其安全距离一般是 1.5 米。
全景声
直播现场录音会有干扰,而在全景声条件下很难控制干扰源。360 度收声的目的就是要把所有声音都收集起来,这就难以甄选什么声音是需要的,也不好控制哪些声音要强一些哪些声音要弱一些。
最终录制出来的声音不理想,环境音嘈杂,混响特别大,听起来效果很不好。无论在硬件的技术上,还是软件的处理上,都需要进一步的加工。
目前在尝试解决这方面问题的团队只有少数几家,90Hz 从时代拓灵工作人员处得知,他们正在研发 VR 直播的全景声解决方案,具体的细节仍未披露。
(图片来自时代拓灵)
带宽
「对于平面视频,1080P 视频已经非常清晰,但是 1080P 的全景视频看起来非常模糊。原因在于像素要分给不同的角度,每个角度分配下来的像素就很少。」Insta360 全景相机创始人刘靖康在接受媒体采访时表示。
全景画面到 4K 的分辨率才足够清晰,但在 VR 直播中,「由于带宽的限制,即使推流到云端是 4K 的分辨率,云端收到后压缩分发到终端的时候一般也只有 2K 的分辨率,国内网站 VR 直播最高的分辨率也就是爱奇艺的 2.5K。」强氧科技一位工程师说道。
强氧科技去年 10 月为 Bigbang 演唱会的 VR 直播提供了技术支持,「用 4K 的设备去拍摄,但是传输到用户端只能达到高清」,呈现出来的画面质量非常不好,被调侃成「像是看马赛克在跳舞」。
传统直播大概带宽占用在 500Kbps 到 1.3Mbps,而 VR 视频直播流一般 720P 的话需要大概 2Mbps 以上的带宽,1080P 的话则至少都在 3.5Mbps 以上。以前给 4-5 个人用的带宽现在只能服务于一个用户。
网心科技 CEO 陈磊在接受媒体采访时表示:「以 1080p、20 多兆来计算,今天的 VR 体验 360 度传输,单位用户成本是今天电视用户成本的 10 倍,是手机用户成本的 100 倍。爱奇艺手机有付费用户,15 元或者 30 元钱 / 月,而要保持同样的利润率,会员需要付费 3000 元 / 月来观看 VR。」
高昂的带宽成本可能是 VR 直播最大的拦路虎,短时间内成本也难以降下来,很多团队不得不在视频编码和 CDN 加速上下功夫,降低 VR 直播所需的带宽。
将 H.264/H.265 编码标准和锥形编码技术结合起来,能大大缩小 VR 视频的文件大小。「我们采用的是与 Facebook 相同的锥形编码技术,可以将视频在不损伤画质的基础上压缩到原来文件的五分之一大小。」微鲸 VR 一位工作人员告诉 90Hz。
锥形编码技术首先将平面帧的画面变成球形,然后将其置入到一个锥形体中。锥形体底端是分辨率最高的画面,越向尖端分辨率越低。用户看向哪里,哪里就是锥形体的底端。
(锥形编码示意图)
此外,强氧科技的 CTO 赵旭鹏透露,芯片厂商联发科正在提交一种基于 8K 分辨率的编码方式,能节省 50% 的带宽,能在多核心处理器的手机上实现 8K 视频播放。
CDN 全称内容分发网络(Content Delivery Network)是指一种通过互联网互相连接的电脑网络系统,它可以实现将源站内容分发至全国所有的节点,缩短用户查看内容的延迟,提高用户访问网站的响应速度与网站的可用性,解决网络带宽小、用户访问量大、网点分布不均等问题。
目前,国内已经有团队在为 VR 直播提供专门的 CDN 服务。比如,星域 CDN 与 Insta360 联合研发专门针对 VR / 全景直播的压缩编码算法,同时利用星域 CDN H.265 实时转码集群,在保证视频质量的同时降低带宽使用。
VR 直播很炫酷,但内容还是为王
VR 直播归根结底还是一种技术手段,和传统直播一样,都要靠内容来形成长久的吸引力。
对体育不感兴趣的观众不会因为一场球赛用了 VR 直播就熬夜观看,不喜欢 Bigbang 的人也不可能专门看一场他们的 VR 直播。既有内容版权又有技术的玩家在 VR 直播这场游戏中能获得更多的筹码,比如华人文化产业投资基金和乐视。
华人文化旗下体奥动力花 80 亿元买下了 5 年中超全媒体版权。同时,华人文化用 6500 万美元投资了 Jaunt VR 以及联手 NextVR,最后依靠微鲸 VR 在国内落地。
乐视体育则花了 27 亿美元拿下了两个赛季的中超新媒体版权,乐视音乐和影业旗下也拥有诸多艺人和 IP。技术方面,乐视云也对 4K 分辨率的 VR 直播做了转码和 CDN 加速方面的工作。
而国内一些专注于 VR 直播领域的创业团队往往没有自己的内容版权库,他们对自己核心竞争的打造集中在关键技术点和互动形式上,就像 NextVR 那样,也有希望在 VR 直播的市场中瓜分一块蛋糕。