泛娱乐行业新玩法：在线KTV、线上电影配音

砍柴网 • 4年前扫码分享

周三，即构泛娱乐行业活动第二期开讲，即构售前架构师张靖雨分享了泛娱乐社交行业两大新玩法：在线KTV、线上电影配音。下面我们准备了活动回放视频、演讲PPT资料和文字稿，错过直播的小伙伴可以进行回看。

活动演讲资料

泛娱乐行业新玩法：在线KTV、线上电影配音

活动回放视频地址

https://v.qq.com/x/page/a0975qfa13g.html?pcsharecode=fZw7HXFh&sf=uri

活动文字稿

在上期活动中，我们了解到在2016年之前，泛娱乐直播主要是基于熟人的实时社交，包括实时视频社交和1V1私密视频社交。在2018年后，陌生人视频社交渐渐逐渐涌现，以秀场连麦PK、语聊房、短视频社交为主的陌生人视频社交玩法广受用户喜爱。

今天我们要分享的也是基于陌生人社交的两种泛娱乐新玩法：在线KTV和线上电影配音

在线KTV大家都不陌生，今年初，某K歌平台推出了一系列全民抗“疫”的营销策略，包含了加油歌单、短视频、音频电台、在线K歌等形式，鼓励大家发布抗击疫情的正能量短视频，呼吁用“同唱一首歌”等方式响应防疫号召，用歌声给一线的医务人员加油打气。我们今天介绍的线上KTV，比目前的主流玩法更突出实时性和互动性。

另一个是线上影视配音，《声临其境》应该很多人都非常熟悉，这是芒果台推出的一款热门综艺，选取经典的影视片段，邀请明星嘉宾进行同台竞技，通过明星嘉宾的台词功底、配音实力来进行配音竞演。线上电影配音把《声临其境》搬到了线上，让更多用户也能进行配音PK。

下面我们先来看看在线KTV如何增加实时性和互动性，以及在技术实现上有哪些难点要攻克。

一、在线KTV

目前主流的KTV玩法，大部分是基于录制点播实现的。单人K歌，是通过下载好的本地伴奏，再配上自己的演唱声音，录制后上传到平台的。合唱则是用户下载已有的演唱片段，与自己的演唱声音进行合唱录制，最后再上传平台分享给其他用户。无论是单人还是合唱，观众看到主播们分享的其实都是录制上传的，都不是实时的。

那么在线的KTV是什么样的场景呢？

在线KTV以双人合唱为主，主唱和副唱进行实时的线上合唱，观众可以实时的收听到主唱和副唱的美妙歌声，趣味性和互动性更强。下面这个是即构在线KTV的演示Demo，大家可以下载体验：

泛娱乐行业新玩法：在线KTV、线上电影配音

在线KTV按角色来分，有主唱、副唱和观众，这个是在线KTV的业务架构图，从图上我们可以看下在线KTV的流程：

图片 4.png

主唱先把伴奏下载到本地，然后通过媒体播放器播放伴奏，再通过麦克风采集自己的演唱声音，同时要把歌词注入到多媒体流中，用以后面的歌词跟伴奏的同步。

副唱拉主唱的流，里面包含了主播的清唱以及伴奏音乐，还有歌词等媒体次要信息。副唱要把自己的音频混入到主唱的声音以及伴奏音乐里面，推送给观众。

观众其实是拉的副唱推出的流，这里面包含了主唱声音、副唱声音和伴奏，实现观众看到听到的主唱声音都是跟歌词同步的。

这里需要注意的是，为了让主唱和副唱之间可以互动，主唱也需要拉副唱的清唱声音，副唱要把清唱的声音推送给主唱，实现主唱和副唱之间的互动，并且伴奏仅存在一次，那就是主唱这边为主。

那么，要实现这样实时互动的在线KTV场景，有哪些技术重点呢？

合唱同步

我们看下面这张图，伴奏的来源是从本地下载，然后通过媒体播放器播放的。人声是歌唱者，从麦克风采集的，那就需要我们的产品能够支持把伴奏的声音和主唱的声音混合再推流出去，并且要保证二者混合是实时的。

图片 5.png

即构SDK支持把媒体播放器播放的伴奏进行混音，录麦克风采集的声音再推流出去，达到人声和伴奏的实时同步。

歌词同步

LRC文件是目前使用最广的一种歌词文件，这种歌词的文件很小很容易解析。在这张图片里，大家可以看到每一行歌词前都有一个时间。我们能将歌词的进度控制到每一行，比如说在第2秒的时候，可能显示的是歌曲名称。

图片 6.png

即构SDK支持将非媒体信息注入媒体流中，非媒体信息就包含上面我们说的歌词时间。通过音视频中的SEI帧技术生成媒体次要信息接口sideinfo，让非媒体信息按照指定的时间节点插入到视频帧数据中，在拉流解析时解析到这个视频帧，就可以拉取对应的非媒体信息。

需要注意的是，前面提到的每一行歌词前面有个时间戳，实际上如果要做到精确到每一个字，也是可以实现的，那就需要把每个字都打上时间戳，然后和伴奏进行对齐。

图片 7.png

这个是歌词同步的架构图，大家可以看到客户端A（主唱），通过媒体播放器播放伴奏，从媒体播放器获取当前播放的时间进度，然后再把时间进度塞到视频帧里推流出去，客户端B（观众）去拉主唱的流，里面就包含伴奏声、人声以及包含歌词播放进度时间戳的媒体次要信息，客户端B从拉的流里接收到媒体次要信息，把时间戳提取出来，再根据这个时间戳显示对应的歌词。

原声和伴奏切换

在线KTV的最后一个技术点是人声和伴奏如何切换？大家知道之前的CD都是可以通过切换左声道和右声道来实现只播伴奏或播放伴奏加原声。如果我们媒体播放器要实现通过切换左右声道来进行原声和伴奏的切换，那就需要对音频文件进行处理，实现例如左声道是伴奏，右声道是人声的效果。那么当你只需要伴奏那就只播放左声道，如果需要人声加伴奏，就左声道右声道一起播放。

并且我们还可以进行一些声调或者降调的操作，如果有些演唱者觉得自己的声音跟音乐的音调，它可以对声道进行升Key或降Key的操作，从而实现伴奏和人声的最佳匹配。

二、线上电影配音

《声临其境》是近两年比较火热的综艺，广受大众的喜爱。如果把《声临其境》搬到线上，要如何做呢？

下面是线上电影配音玩法的架构图：

图片 8.png

A配音者和B配音者是需要通过即构实时网络来实现低延迟互动，即构的音视频实时网络可以做到互动延迟在200-400毫秒之内，实现配音者之间的无感切换。观众可以选择从即构的实时音视频网络，去拉取 A配音者的声音或者说B配音者的声音，也可以通过混流服务，把A配音者的声音跟B配音者的声音混到一起推给CDN，观众再从CDN进行拉流。

无论是线上电影配音还是线上KTV，对音频质量的要求都比较高。即构的音频处理，支持从16KHz-48KHz全频采集，同时我们对音质会进行降噪、回声消除等前处理。即构支持多个音视频码率，针对不同场景不同网络情况，选择恰当的码率，让音画质与延时、带宽、硬件功耗等实现平衡。

对此，即构语聊房SDK支持娱乐房和开黑房两种模式。娱乐房比较适合高音质场景，最大限度的保留原生的音频品质。开黑房对网络要求比较高，我们降低了码率减少对带宽的占用，保证直播的稳定。

娱乐房

娱乐房分为高音质和超高音质

高音质模式：音频码率在64kbps左右，具有低延时、高并发的特点，适合语聊社交、线上相亲、狼人杀等互动性强的场景；

超高音质模式：音频码率在128kbpa左右，具有低延时、超高音质的特点，适合在线KTV、pia戏、双声道直播、主播电台、线上配音等场景，能够支撑高清音乐的播放。

开黑房

开黑房分为标准音质模式和高清音质模式

标准音质：音频码率在16kbps左右，具有CPU占用低、网速占用低的特点，适合移动网络下多人开黑，超低码率就能保障清晰聊天；

高清音质：音频码率在32kbps左右，具有CPU占用低，高清音质等特点，适合WIFI网络下的多人开黑，保障优质聊天音质的前提下，不影响游戏体验。

三、泛娱乐玩法未来的演变

上面我们介绍了线上KTV和线上电影配音两个新场景，那么在可遇见的未来，泛娱乐行业还可能有哪些新玩法呢？

云手游 +语音社交

随着5G的发展，游戏加社交很可能是未来的一大风口。5G下，视频带宽以及码率等都有一个质的飞跃。通过5G网络架构，我们可以实现云手游加语音社交的玩法，云手游的用户不用再去下载安装一个几G的游戏应用，而是可以直接通过浏览器打开一个手游应用，进行云端开黑，加上社交语音功能，实现实时语音互动开黑等。

VR游戏

VR技术也是5G下被广泛看好的应用场景之一，之前由于设备以及带宽限制， VR 视频、直播的码率都非常大。5G普及后，VR游戏可能会有更广阔的应用。我们可以借助VR，沉浸于虚拟世界里面，再加上语音聊天，增加更丰富真实的社交玩法，就可以实现VR版的模拟人生游戏。身在家中，却能与世界各地的玩家仿佛置身同一个游戏场景互动。

以上就是第二期泛娱乐行业新玩法的主要分享内容，音视频技术的发展让泛娱乐社交不断衍生出新玩法，极大的丰富了我们的日常生活。随着5G、AR/VR技术的普及应用，未来泛娱乐社交行业还将出现哪些新生态，我们拭目以待。