声网母公司发布Q1财报大模型与人实时互动将成为RTE重要应用场景

砍柴网 • 10月前扫码分享

近几日，科技圈最具焦点的事件无疑是OpenAI发布了全新大模型GPT-4o。GPT-4o最大的特点就是，其拥有多模态的能力，能够灵活处理文本、图像和音频等多种类的数据。自此，人与机器之间的交流也变得更加亲近与自然。

这也透露出一个重要的信号：支持端到端实时多模态将成为当下大模型发展的新趋势，实时文本、音视频传输能力，将成为实时大模型的标配。GPT-4o能够直接将语音实时输入给大模型，并最终实现像真人聊天一样自然流畅的体验，离不开大模型的进化，以及RTC能力的支持。

北京时间5月23日，声网母公司 Agora, Inc.(NASDAQ: API) 发布了2024年第一季度财报。财报显示，第一季度 Agora, Inc. 实现营收3302万美元，其中，业务聚焦中国市场的声网实现营收1.23亿人民币，聚焦非中国市场的 Agora 实现营收1580万美元。客户规模方面，截至2024年3月31日，Agora, Inc. 活跃客户数量达5553个，同比增长3%。其中，声网活跃客户数量3833个，Agora活跃客户数量1720个。

Agora, Inc. 创始人兼CEO赵斌表示，“尽管面临充满挑战的市场环境，我们持续专注于提升产品的核心性能。我们发布了全新的视频质量优化整体方案，并将我们的 SDK 稳定性提升至历史最佳水平。我坚信这些改进不仅为现有客户创造了价值，也为未来更加多元的应用场景创新奠定了坚实基础。此前我们曾预测，生成式人工智能模型将能够与用户直接进行音视频对话，而这一预测正在迅速成为现实。大模型与人的音视频交互将极大地受益于我们的技术积累，有望发展成为实时互动技术重要的应用场景。”

不得不承认，从GPT所代表的大模型进化路线来看，RTC逐渐成为实现人与AI进行实时语音对话的关键技术之一。

为了更好在大模型技术的进化中充分发挥出自身优势，近日，声网进一步丰富 AIGC 一站式解决方案。针对大模型的交互能力，声网目前已可以提供基于大模型的全链路实时音视频方案，可以帮助大模型厂商构建实时音视频互动的能力，用户可通过麦克风与 AI 进行语音、视频形式的实时互动，并且做到行业内领先的低延时对话体验。

声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK，并支持模块化能力的灵活拼装，包含 RTC 实时音视频、实时消息等多种能力，并支持 API 快速调用，提供开箱即用的场景化 Demo，最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言，可以节省很多开发时间。

除了在AIGC方面的进化之外，从 声网母公司发布的2024年Q1财报中可以看到， 本季度，声网持续聚焦于多元应用场景创新和行业拓展，发布了两款重磅解决方案，分别为声网赛事直播方案和 RTC+AI 教育超级双擎解决方案。声网赛事直播方案，助力直播平台以更低的成本，获得更高质量的赛事直播效果与用户体验。RTC+AI 教育超级双擎解决方案，则助力了在线课堂教学体验的升级以及教学场景的创新。

在出海领域，声网也持续深耕 1v1 社交场景，助力客户在网络环境复杂多变的地区，也能拥有流畅稳定的音视频互动体验，跑赢出海大盘。据数据显示，声网 1v1 社交客户在全球各区域的1v1 App 市场渗透率>70%，其中在中东地区 1v1 社交 App 收入 TOP20中，使用声网 SDK 的 App 就达到了14个，渗透率排名第一。

随着大模型技术的不断进化、出海领域的需求不断生长、以及各种各样对RTE技术有需求的场景不断衍生，我们有理由相信，声网将创造更多基于RTE领域的场景和解决方案。

声网母公司发布Q1财报 大模型与人实时互动将成为RTE重要应用场景

声网母公司发布Q1财报大模型与人实时互动将成为RTE重要应用场景