声网 AIGC 一站式解决方案,更沉浸、低延时、易开发
“还差1人开局,你来不来?”“啥,陪对象呢?!”
“不是,这人怎么进房间就走了啊!”
“又是个挂机的,服了,下把直接ttt!”
社交 策略类 游戏 最怕遇到上面的情景,要么少人游戏永远无法开局,要么有人挂机影响游戏体验。不慌,有 AI 就行,这局要么稳赢,要么过瘾!
随着 AIGC 在泛娱乐领域应用的逐渐深入,现阶段不少游戏场景中都加入了 AI NPC 的角色。 AI NPC 可以为玩家提供各种任务和对话,不仅能够 帮助玩家摆脱游戏人数的硬性限制 ,很好地参与其中,成为合格的游戏搭子,还能通过其智能行为和反应 为游戏增加更多的挑战性和互动性 ,让游戏更刺激。
早于今年5月,声网就推出了 AI + 谁是卧底的玩法 ,由 AI 来充当其中一名玩家,在游戏中学习、提炼其他玩家的发言格式,对自己的关键词进行描述发言,并能通过分析其他玩家的发言,做出“谁是卧底”的判断并进行投票。此类 AI 对话游戏对上下文消息数的支持需要用到 大模型 token 能力 ,像狼人杀、谁是卧底这种人数多、回合多且发言多的游戏,对token能力有很高的要求,而声网已经选型集成的大模型能够很好地 支持游戏的顺畅推进 。
此外,声网 AIGC 解决方案能够 支持各类 AI + 音视频互动场景 ,除了上面提到的 AI + 谁是卧底玩法,声网还能够提供 AI 版本的海龟汤和你说我猜玩法 ,企业也可以根据实际需求定制玩法,持续挖掘 AI NPC 在社交游戏场景中的更多应用潜力。在海龟汤游戏中,AI 将充当出题者,提出一个难以理解的事件,玩家可以提出任何问题以缩小范围并找出事件背后真正的原因,但出题者(AI)仅能以“是(对)”、“不是(不对)”或“没有关系”来作答。当玩家收集到足够的信息,能够描述出完整故事时,AI便会对玩家的最终答案进行判断,并宣布游戏结果。
在你说我猜游戏中,AI 将充当出题人,设置一个游戏谜底并根据玩家的描述给予“是”与“不是”的回复,直至玩家给出正确答案。此类小游戏,特别适合语聊房、陌生人交友等线上社交场景,起到迅速破冰的效果,为平台带来一定增益。
游戏社交此类场景对互动实时性要求极高,市面上已有的方案要么是离线的本地数字人方案,要么是全链路延时过高(6-7s)无法满足游戏中的实时互动,影响用户体验。而声网更专注于提供 实时音频对话的更优体验,低延时、更沉浸 。
更沉浸,用户体验拉满
实时音视频互动相比输入文字,操作更便捷,且能够与其它多模态互动方式结合,提升用户体验。声网提供的 实时音视频 + 实时消息 + 虚拟形象方案 能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。
响应延时低至 1.9 秒内
针对目前市面上大多数 AI 生成式对话响应慢的问题,声网对 AIGC 场景下音视频互动的延时做了很多技术优化, 从用户发言到 AI 对话响应平均延时仅为 1.9s, 而市场上绝大部分 AI 互动延迟还停留在 6-7s。
3h 快速上线,节省开发时间
在场景开发层面,声网 提供封装完整的 SDK ,包含 实时音视频、实时消息、语音转文字( STT ) / 文字转语音( TTS )、语音驱动虚拟人嘴型等多种能力 ,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。
此外,声网还可以提供以下 RTE X AIGC 一站式产品能力:
1. 国内外多种商用大模型灵活切换
声网与热门的国内外大模型厂商进行合作, 支持企业根据自身需求进行灵活切换 。此外,声网在开源大模型层面也有在尝试做 私有化部署 ,以满足部分企业对数据安全及网络的要求。
2. 支持丰富的语言能力
对 STT + TTS 模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持 AI 实时变声、定制化声音克隆 ,让声音听起来更具真实感。
3. 场景人设定制化
声网在 1V1 语音、多人语音、视频直播等场景还对 AI 角色进行了人设定制,通过 Prompt 的方式 设置 AI 角色的名字、职业、性格等丰富的人设属性 并 支持定制形象与声音 。例如在谁是卧底、海龟汤等多人游戏的场景中,AI 可以作为一个玩家角色参与到游戏中。
4. 多轮对话记忆,交互体验再升级
声网提供多轮对话记忆功能,对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户,声网 AIGC 解决方案都可以给予响应。比如谁是卧底游戏中的AI NPC 既可以充当卧底又可以扮演队友,响应敏捷。