声网赵斌:实时互动体验进入智能·高清新时代
过去这一年, AIGC大模型驱动着各行业迎来新业务机会,AR、 VR 、XR等技术能力的迭代为实时互动在各个领域的应用提供了更多可能。在直播 社交 领域,弹幕玩法成为直播新风口,这些变化都影响着RTE行业的进化。
在刚刚落幕的RTE2023第九届实时 互联网 大会上,声网创始人兼CEO赵斌与声网合伙人兼客户成功副总裁孙雨润共同带来了《智能·高清 开启实时互动体验新时代》的主旨演讲。赵斌不仅在大会上宣布声网在RTE行业首次实现广播级4K超高清实时互动体验,还围绕年度大事件、RTE行业洞察及未来展望等内容展开了分享。
以下内容基于演讲内容进行整理,为方便阅读略有删改。
【年度大事件】
生成式AI变革 为实时互动带来更多可能
各位嘉宾、开发者以及合作伙伴,很高兴在疫情结束之后又与大家同聚线下,探讨行业的发展与进化。毋庸置疑, 过去这一年,对 科技 行业影响最大的事件是生成式AI的突破式进展。 OpenAI发布大模型后,其网站在很短时间内就跻身全世界网站访问量前20名,单月访问次数超18亿次。不得不承认,AIGC现阶段对科技和人类生活的改造或许仅仅刚露出了一些苗头。 它所带来的不仅是一次像互联网那样的巨大革命,更可以称之为像电一样的发明。 我们也看到,在RTE行业里,一些企业很快就利用AIGC能力创造出了类似Call Annie这种现象级使用场景。
另一个事件是 苹果 发布Vision Pro,其开创性的提出了空间计算基础框架概念。未来现实与虚拟空间的融合互动,将有可能在计算机和信息化方面进化出一个全新领域。我们也关注到,Vision Pro的单目分辨率是4K,尚不能真正意义上达到此类设备所需的高端视网膜高清效果。按现在的研究,如果真要做到人眼不能分辨的颗粒度效果,甚至要达到16K的分辨率水平。相较于 手机 视网膜屏,人在VR设备里覆盖的视觉范围要大很多,所以达到视网膜分辨率效果就需要更高的像素数。
这也意味着,如果要实现肉眼不能分辨颗粒感的效果,分辨率的提升不可避免。 可以预期,Vision Pro 要取得真正意义上的普及和成功,相关内容的质量和体验都需考虑更高的分辨率,以及对应场景下的内容生产、制造、传输和保障等相关技术。
Google也没有在Starline产品上放弃多年的努力,而是推出了Starline全息电话亭,不需要依靠头戴设备就能实现 3D 全息视频通话。有意思的是,他们从很多用户使用体验的量化分析中发现,在这种场景体验中,人们表现出更多的非语言行为,比如增加约40%的手势动作、约25%的点头动作,以及约50%的眉毛动作;使用Starline项目时,人们的记忆力要好得多,当被要求回忆他们的谈话细节或会议内容时,记忆力提高了近 30%;在眼动追踪实验中,人们对会面伙伴的关注度增加了约 15%,这表明使用 Starline 项目时视觉注意力得到了增强。 这种与“注意力”有关的价值,将在很多RTE业务里转化成效率或付费能力,也可能结合RTE技术催生新的业务形态和 商业 机会。
还有很多相关的事件,如Iris项目遇挫后,Google 降低了在硬件上的投入,转攻 Micro XR 平台,为XR设备打造了Android/开放生态操作系统;在刚刚过去的亚运会开幕式上,不仅有数字人点燃亚运主火炬,线上也有超1亿数字人火炬手尝鲜数实融合互动, 直观反映了现实和虚拟场景结合的接受度在普遍提高。
RTE行业也出现了变革。社交领域,弹幕玩法优秀的吸金能力成为直播行业的风口 ,声网与对爱相亲共同上线的弹幕玩法就为其创造了20%以上的留存时长增长;互联网直播从千播大战走向协作共赢, 声网推出的跨APP主播团战方案,正在帮助各类直播平台实现团战对接与技术方案。
IoT领域 ,大疆发布了自动机场产品,进一步拓展了无人机的使用形态和场景。 我们也很高兴,与大疆进行多年合作之后,通过无人机进一步放大了RTE技术在生产和消费领域的使用空间。
B站宣布,将外显数据从播放次数调整至视频播放分钟数,这虽然是一个小小的改变,但也说明了内容运营平台开始越来越多的关注音频、视频在内的内容质量,并形成一个长久趋势。
RTE行业标准化进展方面。在中国市场,去年,声网和中国信通院成立实时互动联合实验室,今年,基于双方在各自领域的多年技术积累, 联合发布了包括视频、音频、会议和可视门禁体验在内的一系列实时互动质量评测标准 ,为RTE行业的进一步普及与质量进化提供了新的价值。
【行业洞察】
RTE行业持续成长 AI驱动QoE体验提升
2023年,RTE行业自身的一些变革也在带来持续影响。数据显示,随着疫情消退,RTE行业和应用在持续成长,其中泛娱乐领域用户时长增速跑赢大盘。网络直播、电商直播、演唱会直播、体育直播、线上办公、线上健身、互联网医疗等RTE应用场景下的用户规模也在持续增长。Google WebRTC 产品经理Huib Kleinhout此前发布数据, WebRTC Chrome视频日用量达到10亿分钟,相比2018年增长了250%。声网极速直播用量相较于2022年也增长了400%。线上视频会议这类RTE应用场景相较于疫情之前的接受程度也在普遍提升。
此前我们预测,直播可能会在电商领域取得巨大发展。目前,中国市场上两个最大的直播电商应用抖音、快手的GMV都达到了万亿规模, 直播为电商行业格局带来颠覆式改变 。
直播带货、直播拍卖、商家PK直播、主播商家挂榜连麦等场景,进一步扩展和模仿了线下售卖体验,商家叫卖、买家咨询、谈判砍价,竞标砍价等等,都在线上得以复现。 相信未来会有更多与RTE结合的电商直播玩法被创造,甚至优于线下购买体验。
AI领域的突飞猛进为RTE行业发展带来新机遇。 在音频上, 我们与AI结合,打造了迈向极致沉浸和极致拟真的声网凤鸣AI引擎; 在视频上, 我们利用AI技术的全新算法,推出了“实时高清·超级画质”方案,其在画质提升的同时,还带来了AI美颜、虚拟背景、AI驱动表情+动作等方面的进化。可以说, 我们今天有能力提供业界最好的视频实时互动质量。
虚拟人+AIGC所创造的情感和情绪价值,也被作用于解决社交供需不平衡上。 比如AI助理、AI女友、AI NPC等应用场景的出现,让我们再次看到了AI的潜力。 在元宇宙方面, AIGC让Metaverse 更现实、更可用,比如提供更多的人物分身/替身,更接近真实的机器和人、人和人之间的互动场景。 应用开发上, 我们也看到AIGC在大幅提高编程、自动化测试、文档生产等应用开发的效率。
在AIGC与RTE能力结合的应用层面, 声网也推出了行业首创的AIGC-RTC能力模块,可支持与任何大模型平台结合,实现更低延时、更自然、更沉浸的实时语音对话,为企业协作、社交、直播、 游戏 等多种场景提供新玩法、新机会。
在AI等核心技术驱动下,实时互动QoE体验的变化对用户留存和使用行为的影响日益增强。 声网合伙人兼客户成功副总裁孙雨润,以互联网社交行业为例,介绍了他的团队在过往对使用RTE技术产品和公司研究过程中,所总结的一个目标、一个难题、四个手段和四个技术突破。
孙雨润介绍到, 随着用户流量成本的增加,如何让用户玩得爽、愿意玩、愿意花更多时间玩,成为所有企业实现增长目标所面临的难题。 针对这一难题,我们在研究的过程中发现了四个行之有效的手段:其一,根据声网某东南亚头部泛娱乐客户数据显示,当视频从标清升级到高清后,停留超过30秒观众数提升19%,观众人均观看时长提升30%,同时观众打赏率大幅提升。其二,某国内知名社交出海App从CDN升级到声网极速直播后,送礼率增长 12.3%;其三,AI 降噪开启后,东南亚前三社交 App用户通话时长提升5%,音频流量成本降低10%+;其四,国内某知名社交App数据显示,上线实时合唱功能后,合唱时长比独唱高29%,用户收听时长比独唱高11%。
行之有效的四个手段背后,是声网四项技术难题的突破:
第一,声网发布了推动RTE画质快速高清化的“实时高清·超级画质”解决方案;
第二,声网用最新的数据和技术迭代出了全球高清能力地图,帮助有效降低东南亚、印度、非洲、南美、中东等欠发达地区的设备和网络门槛;
第三,声网在全球范围内,迭代出了全球秒开能力地图,帮助上述地区做到了秒开、秒切、秒出图、秒连通以及超低的视频卡顿率。
第四,声网AI凤鸣引擎,不仅能够实现AI降噪,同时还能提供美声、变声、模拟专业声卡的玩法,提升用户场景互动体验。
赵斌接着指出,很多大型企业已经开始逐步拥抱实时互动,并在业务场景中持续使用RTE能力进行效率优化与功能提升。在数字化转型过程中,这类大型企业常需要构建全域一张网、全业务一张网、全设备一网通和全业务多形态能力封装。这一方面, 声网也在配合去构建统一的企业音视频实时互动中台,帮助其改变“烟囱式”系统建设,提高企业在业务上的灵活度和效率。
RTE+IoT方面也有一些重大的进化。以智能家居领域为例,随着无人车、智能音箱、智能电视、智能手表以及XR眼镜等设备的普及, RTE + IoT正在构建人、车、家的智能化生态,实时互动也逐渐成为智能家居新标配。 此外,远程驾驶的落地、远程开挖掘机等场景的形成,也在描绘着一幅幅沉浸交互的美好画卷。
随着需求多元化与行业进化,生态合作在RTE行业的发展中越来越重要。 多年以来,声网始终禀承“极致的专注和彻底的开放”这一理念,和行业里众多伙伴建立了合作关系,在泛娱乐、教育、企业服务和数字化等领域提供了更加完备的能力集合与场景构建可能性。我们相信,未来RTE生态合作将会创造更好的使用场景,我们也将坚定地携手各位生态伙伴一起,去迎接和开创RTE行业的繁荣。
今年,声网首次推出一本正式出版物、实时互动行业首本百科全书——《读懂实时互动》。 预计12月可以在各线上平台购买,希望能够为实时互动行业发展提供更多普及与帮助。
【未来展望】
实时互动进入智能·高清时代
关于未来,我有六点展望:
第一,AIGC将有机会进一步颠覆主流人机交互界面,从触屏/键盘鼠标转变为自然语言对话。这将更大释放人机交互或人对智能机器的使用空间、操控便捷性和效率,也会影响很多应用场景和行业的变革。
第二,社交领域,AIGC除了创造情绪价值之外,还将为每个人创造替身、分身。这点改变早期可能会首先从明星/VIP/KOL开始,并逐步走向每一个普通人。
第三,RTC技术的成熟将颠覆2s以下低延迟直播技术方案,更高质量、更好的网络设备适应性、更多的玩法将进一步驱动直播行业玩法甚至业态的创新。随之而来的这种技术架构和体系将会成为低延迟直播的主流技术方案。
第四,未来几年里,越来越多的品牌将会不满足于在各种视频流量平台去经营自己的电商商铺,直播电商独立站的成分将持续增加,品牌普遍会采用保持平台、独立站双渠道经营的模式。
第五,企业场景下,更多企业将希望拥有自己定制化和多元场景支持的会议与协同工具。
第六,神经场辐射技术(NeRF)可能成为未来全息实时互动的基础技术,通过传输光线位置、光照方向、三维坐标,实现逼真的3D人像。
最后,为大家带来一个one more thing——广播级4K超高清实时互动体验。大家可能听过关于高清的实时进化,从1080p到4K、8K、16K。很多人认为,高清就是分辨率。但事实并非如此, 4K不仅仅只有分辨率一个维度 ,光亮强度的动态范围、色彩的真实度、饱和度,以及色彩渐变的细腻程度,都是真正超高清体验里不可或缺的一环。这些其实是有很多工业标准进行详细界定的。
我很高兴的宣布, 声网在RTE行业首次实现广播级4K超高清实时互动体验。 广播级超高清将带来更逼真的视觉效果,高对比度和丰富的色彩表现可以使影像更加生动,细节更加清晰,并以此提升视觉体验。
未来,我们希望继续和各个领域专家以及一线实操 创业 者一起,共同探讨RTE行业未来的机遇和空间,为社会及每个人的生活开创更好的体验,提供更多的商业进化和便利,共同创造一个美好的世界,谢谢大家。