在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语
GPT-4o 自发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司 Character.AI 表示其已经推出了一项通话功能,允许用户与其人工智能角色进行语音对话,并支持多种语言。微软 AI CEO Mustafa Suleyman 近日也表示,今年年底,微软的 AI 将拥有实时的语音界