翻译 50 种语言，精准识别情绪！音频大模型 FunAudioLLM 上线基石智算

砍柴网 • 4月前扫码分享

基石智算 CoresHub 将 AI 算力云与模型开发部署服务完美融合,致力于为开发者打造完整的 AI 应用落地生态。对于初涉开发的用户而言,平台支持多模态模型及应用的一键启动,为众多 AI 爱好者赋予强大能量。目前,平台已推出文本类、文生图、文生视频、语音转换等模型,且支持一键启动、一键部署以及在线微调,助力用户打造专属 AI 应用。

本期,将为大家详细呈现基于基石智算 CoresHub 平台的 FunAudioLLM 模型使用教程。

FunAudioLLM 模型介绍

FunAudioLLM 是阿里巴巴通义实验室推出的一款开源语音大模型,它包含两个核心模型:SenseVoice 和 CosyVoice 。SenseVoice 专注于多语言语音识别、情感辨识和声音事件检测,支持超过 50 种语言,尤其在中文和粤语的识别上表现优异,准确率提升超过 50%。它还能够识别多种情绪和交互事件,如音乐、掌声、笑声、哭声等。CosyVoice 则擅长语音合成,能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节,并支持跨语言合成。

翻译 50 种语言，精准识别情绪！音频大模型 FunAudioLLM 上线基石智算

FunAudioLLM 的应用场景非常广泛,如语音到语音翻译、情感语音对话、互动播客和有声读物等。例如,在语音到语音翻译场景中,它可以将中文语音翻译成英文语音,同时保留原说话人的音色和情感色彩。在情感语音对话中,它可以与用户进行带有情绪色彩的交互,提升用户体验。此外,它还可以用于制作互动播客和有声读物,提供丰富多彩的听觉体验。

语音翻译:将输入语音翻译成目标语言,并使用目标语言生成语音。

翻译 50 种语言，精准识别情绪！音频大模型 FunAudioLLM 上线基石智算