持续聚焦RTE+AI 声网斩获2024人工智能年度评选两项大奖

砍柴网 • 3月前扫码分享

12月11日,由量子位举办的MEET2025智能未来大会在北京圆满落幕,大会也同步公布了2024人工智能年度评选,声网凭借在 RTE+AI 领域的杰出探索,荣膺2024人工智能年度领航企业、2024人工智能年度杰出解决方案两项大奖。

本次评选于今年9月启动,在3个月时间里,共有数百家企业、机构和个人报名参与评选。最终,以真实数据为基础,结合量子位对数百家 AI 公司的深入调研,以及数十位行业知名专家的意见,得出最终榜单结果。

在Gen AI 的浪潮下,实时多模态成为大势所趋,声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与生成式AI 结合,推出了声网 Conversational AI Agents ,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,具备500ms超低延时、对话更自然拟真、框架灵活可拓展等一系列特性,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。

AI 语音对话延迟低至 500ms 支持智能打断

超低延时语音对话是声网 Conversational AI Agents 解决方案的一大核心优势,通过在客户端进行低延迟的音频采集和播放,借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。

在真实的语音对话中,打断对方并提出新疑问是很常见的现象,而在 Gen AI 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。

持续聚焦RTE+AI 声网斩获2024人工智能年度评选两项大奖

领先的音频处理 让 AI 对话更 “ 听得清 ”

在人与人音视频通话的过程中,经常会遭遇环境噪音,影响沟通效率。在Gen AI 场景中,环境噪音同样无法避免。声网的解决方案具备业界领先的音频3A能力,即使在嘈杂的环境中,也能通过 AI 噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅,AI 也更听得清人说的话。

灵活可 扩展的 AI Agent 架构支持快速接入

AI Agent 作为大模型的应用框架,其重要性不言而喻。而开发者经常会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

同时,这套方案支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证,并提供端到端 SDK,同样适用于针对目标场景化业务开发,寻求整套技术方案的客户。

持续聚焦RTE+AI 声网斩获2024人工智能年度评选两项大奖

声网 Conversational AI Agents 架构图

目前,声网已与国内外多家 AI厂商展开了合作,借助 Conversational AI Agents 帮助客户实现了对话式AI 在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景的落地。例如虚拟陪伴场景,通过 AI 虚拟伴侣,在社交陪聊、亲情陪伴、游戏 NPC 等场景中提供 7x24h 时刻在线服务,可自定义人设、声音、形象等模拟真人声音及情感,为用户提供情感支持、心理慰藉以及陪伴。

口语陪练场景,通过拟人化的 AI口语老师,在外语考试、语法巩固、语言学习等场景提供更高性价比的外教陪练服务,借助定制化的分级语料训练,为不同流畅度的学员提供个性化的多语言发音指导。