Qwen3-TTS 是阿里通义千问团队发布的最新语音生成模型,具备极其强大的零样本语音设计与语音克隆能力。本文将指导如何在本地环境(特别是 8G 显存显卡)下高效部署和使用。
一、 硬件与环境要求
- 显卡 (GPU): 推荐 NVIDIA 显卡。
- 8G 显存: 可完美运行 1.7B (bf16精度) 模型(推荐)。
- <6G 显存: 建议使用 0.6B 模型。
- 内存 (RAM): 建议 16GB 以上。
- 系统: Windows / Linux / macOS (MPS支持正在完善中)。
- 基础软件: Python 3.10+ (推荐 3.12), CUDA 12.1+, Git。
二、 部署方式 A:ComfyUI 插件版(推荐小白/设计师)
适合习惯图形化界面操作,进行工作流搭建的用户。
1. 安装插件
进入 ComfyUI 的 custom_nodes 目录,运行终端命令:
git clone https://github.com/Flybirdxx/ComfyUI-Qwen-TTS.git
或者使用 ComfyUI Manager 搜索 "Qwen" 进行安装。
2. 模型下载与放置(关键步骤)
为了避免自动下载占满 C 盘并提高加载速度,强烈建议手动下载。
- 下载地址: Hugging Face - Qwen3-TTS Collection
- 目录结构:
在ComfyUI/models/下新建qwen-tts文件夹。将下载好的模型文件夹完整放入。正确的路径示例:ComfyUI └── models └── qwen-tts ├── Qwen3-TTS-12Hz-1.7B-Base # 用于克隆 ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign # 用于捏声音 └── Qwen3-TTS-12Hz-1.7B-CustomVoice # 用于预设音色
对于国内用户或网络环境不稳定的情况,强烈建议采用手动下载方式,避免 ComfyUI 启动时自动下载失败或卡死。
方法一:ModelScope 魔搭社区下载(推荐国内用户,速度快)
Qwen3-TTS 是阿里出品的模型,在 ModelScope 下载速度极快且无需魔法。
- 访问链接:
- 语音设计版 (捏声音): Qwen3-TTS-12Hz-1.7B-VoiceDesign
- 语音克隆版 (复刻): Qwen3-TTS-12Hz-1.7B-Base
- 预设音色版: Qwen3-TTS-12Hz-1.7B-CustomVoice
- 下载方式:点击网页上的“模型文件” -> “下载”,将整个文件夹下载下来(或者使用 git clone 命令)。
方法二:Hugging Face 下载
适合海外用户。
- 访问 Hugging Face 的 Qwen3-TTS 合集页面,下载对应的 1.7B 版本文件夹。
📂 关键步骤:目录结构放置
下载完成后,请务必按照以下层级放置文件,文件夹名称不能乱改,否则插件无法识别。
请打开您的 ComfyUI 安装目录,进入 models,新建 qwen-tts 文件夹:
ComfyUI安装目录
└── models
└── qwen-tts <-- (新建这个文件夹)
├── Qwen3-TTS-12Hz-1.7B-VoiceDesign <-- (模型文件夹1)
│ ├── config.json
│ ├── model.safetensors
│ └── ... (其他文件)
│
├── Qwen3-TTS-12Hz-1.7B-Base <-- (模型文件夹2)
│ ├── config.json
│ ├── model.safetensors
│ └── ...
│
└── Qwen3-TTS-12Hz-1.7B-CustomVoice <-- (模型文件夹3)
├── config.json
└── model.safetensors
⚠️ 注意事项:
- 请确保下载的是 文件夹,而不是散落的文件。
- 对于 8G 显存用户,只下载 1.7B 版本即可,不需要下载 0.6B 版本。
speech_tokenizer相关文件包含在模型文件夹内,无需额外单独下载。
3. 常用节点说明
- VoiceDesignNode: 捏声音。输入文字描述(如“温柔的御姐音”),生成全新声音。
- VoiceCloneNode: 克隆。输入一段参考音频(5-15秒),复刻该声音说任意话。
- CustomVoiceNode: 预设。使用官方内置的 9 种高质量音色(如 Vivian, Ryan)。
三、 部署方式 B:Python 代码版(推荐开发者)
适合需要集成到应用或进行批量处理的用户。
1. 环境安装
# 创建虚拟环境
conda create -n qwen-tts python=3.12 -y
conda activate qwen-tts
# 安装官方包
pip install -U qwen-tts
# 安装 FlashAttention (大幅降低显存占用,8G显存必装)
pip install -U flash-attn --no-build-isolation
2. 代码示例(8G显存优化)
使用 bfloat16 精度加载是 8G 显卡运行 1.7B 模型的关键。
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型 (这里以 VoiceDesign 为例)
# 首次运行会自动下载,建议配置 hf_transfer 加速
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
device_map="cuda:0",
dtype=torch.bfloat16, # 核心:使用 bf16 节省显存
attn_implementation="flash_attention_2" # 核心:开启加速
)
# 生成语音
text = "你好,我是通义千问语音助手。"
instruct = "用充满磁性的新闻主播男声,语速适中。"
wavs, sr = model.generate_voice_design(
text=text,
language="Chinese",
instruct=instruct
)
sf.write("output.wav", wavs[0], sr)
四、 模型版本选择指南
| 模型名称 | 后缀 | 用途 | 8G显存建议 |
|---|---|---|---|
| 基础版 | -Base | 复刻克隆。需要提供一段参考录音。 | ✅ 推荐 (1.7B) |
| 设计版 | -VoiceDesign | 凭空创造。通过文字描述(Prompt)生成声音。 | ✅ 推荐 (1.7B) |
| 自定义版 | -CustomVoice | 标准播报。使用内置的几个高品质音色。 | ✅ 推荐 (1.7B) |
注:0.6B 版本虽然速度快,但情感表现力和音质细节不如 1.7B,除非显存极度紧张(<6G),否则首选 1.7B。
五、 避坑指南
- 显存溢出 (OOM):
- 确保已安装
flash-attn。 - 代码中必须指定
dtype=torch.bfloat16。 - ComfyUI 中不要同时加载多个大模型,随用随加载。
- 确保已安装
- WebUI 麦克风无法使用:
- 如果你搭建了 Web 服务供他人访问,浏览器要求必须使用 HTTPS 协议才能调用麦克风权限。本地测试 (
localhost) 不受影响。
- 如果你搭建了 Web 服务供他人访问,浏览器要求必须使用 HTTPS 协议才能调用麦克风权限。本地测试 (
- 下载超时:
- 国内环境建议使用
huggingface-cli搭配镜像站下载,或者直接下载模型文件到本地指定目录。
- 国内环境建议使用
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)