链接跳转

通义语音合成_CosyVoice

AI音频

阿里巴巴

开源语音合成模型，支持多语种和声音克隆

阿里巴巴通义实验室出品。CosyVoice是通义推出的开源语音生成大模型，基于生成式语音大模型技术，支持多语种语音合成和声音克隆，已开放API接入阿里云百炼平台，广泛应用于新闻阅读、出行导航、智能硬件和通知播报等场景。

主要功能：

语音合成、声音克隆（仅需10~20秒样本音频即可生成高度相似且自然的定制声音，无需训练）、声音设计（通过文本描述生成定制化音色）、多语种支持、低延迟流式合成、零样本声音克隆、文本替换与Markdown过滤。

优势特点：

开源免费，社区活跃（ModelScope下载量超172万次）；3秒极速语音复刻；支持低延迟流式合成（基于WebSocket协议），适合实时对话场景；支持声音设计能力，可通过文本描述创造全新音色；提供多种模型版本满足不同场景需求。

主要版本：

CosyVoice 1.0 → CosyVoice 2.0（低延迟流式升级）→ CosyVoice 3.0（轻量AI语音合成大模型）→ CosyVoice-v3-Flash / v3-plus（百炼平台最新版本）。

工具网