通义语音合成_CosyVoice

AI音频

阿里巴巴

开源语音合成模型,支持多语种和声音克隆

通义语音合成_CosyVoice

阿里巴巴通义实验室出品。CosyVoice是通义推出的开源语音生成大模型,基于生成式语音大模型技术,支持多语种语音合成和声音克隆,已开放API接入阿里云百炼平台,广泛应用于新闻阅读、出行导航、智能硬件和通知播报等场景。

主要功能:

语音合成、声音克隆(仅需10~20秒样本音频即可生成高度相似且自然的定制声音,无需训练)、声音设计(通过文本描述生成定制化音色)、多语种支持、低延迟流式合成、零样本声音克隆、文本替换与Markdown过滤。

优势特点:

开源免费,社区活跃(ModelScope下载量超172万次);3秒极速语音复刻;支持低延迟流式合成(基于WebSocket协议),适合实时对话场景;支持声音设计能力,可通过文本描述创造全新音色;提供多种模型版本满足不同场景需求。

主要版本:

CosyVoice 1.0 → CosyVoice 2.0(低延迟流式升级)→ CosyVoice 3.0(轻量AI语音合成大模型)→ CosyVoice-v3-Flash / v3-plus(百炼平台最新版本)。

看了通义语音合成_CosyVoice的人还看了