RTE2023|圆桌对话:AI如何赋能实时互动体验改善及场景创新

砍柴网  •  扫码分享

今年以来,由ChatGPT引发的AIGC浪潮席卷全行业,AI大模型正在被应用于各行各业的效率提升与产品研发上。就 社交 泛娱乐行业而言,不断进击的AI技术带来了怎样的互动体验改善与场景创新?在落地的过程中,又面临着哪些技术上的瓶颈与挑战?

在RTE2023 实时 互联网 大会上,喜马拉雅首席科学家卢恒、Soul App技术副总裁张高政、小红书音视频架构负责人陈靖、商汤 科技 商务总监&数字文娱事业部副总裁李星冶围绕相关话题展开了圆桌探讨。

RTE2023|圆桌对话:AI如何赋能实时互动体验改善及场景创新

以下内容基于圆桌讨论内容进行整理,为方便阅读略有删改。

Q1:AI技术已经发展很多年了,大家觉得此次AI大模型的浪潮与之前的AI技术相比,对各自的业务影响有何不同?

卢恒: 喜马拉雅是全国最大的有声内容平台,我们从文本处理到音频内容生成过程中使用了大量AI技术。以话本工作为例,喜马拉雅之前在演绎小说原著或篇章时,会对小说进行海量标注,现在基本上可以用AI完成了。我们结合大模型做了很多优化工作,在话本出来之后,我们会把它送到后端支持多情感的系统里,让它自动挑选用哪个音色去进行当前句子演绎,几乎已经达到完全自动生成多情感音频内容的阶段, 在角色分配、情感理解、甚至是韵律预测上,都变得更加精准。 现在,喜马拉雅大概有3.7万本小说音频都是结合AI技术生成的,AIGC生成的音频内容日均播放量超过250万小时。

张高政: 我认为有两点对社交行业比较重要。首先,大 模型的理解将带来内容生产效率提升与门槛下降,对于UGC类的平台和用户都非常有利。 随着大模型多模技术的发展,以前不太喜欢表达或不擅长表达的用户,都可以通过大模型去生产文字、图片、视频,并以更多维的方式去表达自己,展现自己,在UGC平台上,大模型将是一个很重要的工具。

其次,随着社交行业虚拟人、虚拟陪伴、智能对话等现象级产品的爆发,用户越来越能接受人机对话的互动形式, 现在的bot也可以通过大模型变得更加智能、流畅、有情感,这种变革会带来社交关系的代际变化。

陈靖: 先谈一下我对AI过去与现在的认识。过去的AI,更倾向于处理偏固定性的问题,或者更偏专用、小范围的具体问题,比如识别类。 现在的AI,一是很通用,二是更有娱乐精神,更适用于泛娱乐行业。

起初,我们最担心的是生成式内容创作会不会影响社区真人创作氛围,大家都在讨论如何避免AIGC在我们平台失控,与此同时,我们也担忧未跟上AIGC的脚步。之前搞了一个黑客马拉松,看到了一些非常有趣的idea。虽然现在很多项目还没有落地,但我们都在持续的研究。

李星冶: 相比传统的AI浪潮,这波大模型核心体现出来的是大。

第一是对大算力的要求 。商汤科技的上海临港AIDC是全国最大,也是亚洲最大的人工智能计算中心之一,还在广州、重庆、深圳、福建等地打造了多个区域级算力中心,储备了很多计算资源,目前看来边际效应还是递增的状态。回过头去看,当时的做法很正确。

第二个是大模型的参数量上 。商汤的模型数量增长迅速,仅去年到现在,短短一年,基本上翻了一倍。所以,从模型数量上也体现了其泛化的特点。

第三个是它的应用空间很大 。今年我们成为了拿到网信办首批AI大模型牌照的8家公司之一,也做了一些像商汤如影、商汤格物等应用,但我们的目的不是为了去做C端的运营,而是作为技术厂商,需要更往前走一步,看看C端的痛点在哪。只有拿到用户的真实需求反馈,才能服务好客户的对应场景需求。

Q2:在落地实际的业务与场景时,大家遇到的痛点和挑战是什么?

卢恒: 我们在落地的时候确实碰到了很多痛点和挑战。首先, 要真正做好一个虚拟陪伴机器人、AI主播与用户进行交互,其算力成本非常贵。 也就是说,如果要向C端大量提供这样的服务,本身的成本以及工程上的实时化要求就非常高。所以这块还需要做大量的工程化工作,促进算力的获取和保障。另外,虽然现在大模型的通用能力很强,但 真正对于一个AGI来说,除了逻辑和智商之外,可能还需要情感表达这样的EQ能力,目前来看是有所欠缺的。

张高政: 我们这边面临两个挑战。 第一,AGI爆发之后,我们在思考用通用大模型,还是在垂直领域做更有人格、情绪化、情感温度的大模型。 后来慢慢发现,社交行业的通用模型能解决四五十分的问题,但如果想让智能对话能力变得更人格化,通用AGI就无法满足。第二,现在的大模型几乎可以代替所有的业务模式,但 对社交来说,需要的并不是简单的一问一答,而是综合的互动体验。否则就无法产生粘性和深度的关系网络。 我们在大模型的应用上,除了Chatbot以外,还要配合音乐、图像的生成使用。如何推进AI新技术与社交场景的深度融合, 如何借助AI工具产生更具参与感、趣味性的社交玩法,可能将是社交行业存在的一个挑战。

陈靖: 大模型落地的痛点和挑战不光是技术和成本, 还有一个挑战是,对于很多公司而言,说清楚一些AI大模型项目的必要性是一个巨大挑战 ,很多项目并不像利用AI去做体验增强那样,能够跟用户留存及转化的一些指标建立关联。

李星冶: 站在我们的角度,我认为有两点。

第一, 在服务C端流量产品时,算力、带宽、智力相关的弹性储备是一个很现实的挑战。 比如某偏图像社区的产品,日常输出速度上限是每10秒钟200张图,但遇到万圣节等 营销 节点时,可能会变成至少2000张图。这背后都涉及到与算力相关的弹性储备。

第二, 大模型开发厂商该如何平衡投入以及预期收入之间的关系 。现在行业内大模型真正能够落地产生 商业 价值的并不多。只有随着行业慢慢进入深水区,才会有更多更合适的产品和技术供应方诞生,共同打造好的行业生态。

Q3:在大家已经做的尝试和探索里,能看到哪些实时互动领域业务体验的改善,或者是玩法创新?

卢恒: 以内容搜索和推荐为例,此前用户想在喜马拉雅上搜索喜欢的内容,更多的是直接搜索专辑或书籍名字。大模型出来后,就可以完全 根据相关算法去了解用户的想法和意图,并推荐一些适合当前听的内容,提升搜索效率和用户体验。

张高政: 我分享三个案例,第一个是Soul自研的让人和人、人和内容“智能链接”的灵犀系统。因为平台有内容的分发,也有人的互动,所以我们自研了一套系统,这套系统打通了人、内容的连接,其最重要目的就是帮助用户获得更及时和高质量的互动反馈,实现注意力普惠, 对于社交平台来说,这是帮助用户平等获得内容分发和交流机会的一个大突破。 第二个,我们自研了NAWA引擎,一套集AI、渲染与图像处理于一体的集成化SDK,可以帮助用户创建个性化形象和个性化虚拟场景。第三,Soul 2020年就开始做与AIGC相关的研发,在智能对话、图像生成、语音技术等方面拥有相应技术积累,并且推出了AI绘画、AI聊天、AI音乐等活动和功能,例如“AI苟蛋”在内测上线以后,用户会在各个平台上自发宣传这个功能。我们认为, 用户在慢慢接受人和虚拟人共存的社交体验和关系网络,未来,Soul也会陆续推出人和虚拟人互动等场景。

陈靖: 从我的观察来看, 美颜美体功能是过去AI为实时互动领域贡献最大价值的场景,它能极大地提高主播观看率。 小红书用AI可以说是无孔不入,不仅是实时音视频、美颜、美体,还有画质增强和码率压缩方面,都应用了非常多的AI技术。在创新落地上,我们在搜索和推荐里使用了大量的AI,比如用一张图片即可搜索小红书笔记,以及如何让用户快速找到他最喜欢看的主播等等。

李星冶: 整个AI互动我们经历了三个阶段。第一阶段,从2016年直播短视频爆发后,我们做了行业内第一个直播用的美颜特效、美体特效、背景分割等;第二个阶段,是2021年,也是元宇宙元年,我们做了人物场数字孪生技术。第三个阶段,我们更多的是大模型综合能力的运用,比如在《长安三万里》火的时候,我们和一个学习机硬件产品合作,用大模型做了李白的人设,放到学习机上引导小朋友与李白做互动。还有我们跟一个阅读网站合作,实现了七八个、甚至几十个虚拟人与一个真人互动的场景。 用户还可以生成他的虚拟女友,失去的亲人等,这些都是我们在AI实时互动玩法上看到的一些变化。

随意打赏

提交建议
微信扫一扫,分享给好友吧。