Qwen3-TTS 是阿里通义千问团队发布的最新语音生成模型,具备极其强大的零样本语音设计语音克隆能力。本文将指导如何在本地环境(特别是 8G 显存显卡)下高效部署和使用。

一、 硬件与环境要求

  • 显卡 (GPU): 推荐 NVIDIA 显卡。
    • 8G 显存: 可完美运行 1.7B (bf16精度) 模型(推荐)。
    • <6G 显存: 建议使用 0.6B 模型。
  • 内存 (RAM): 建议 16GB 以上。
  • 系统: Windows / Linux / macOS (MPS支持正在完善中)。
  • 基础软件: Python 3.10+ (推荐 3.12), CUDA 12.1+, Git。

二、 部署方式 A:ComfyUI 插件版(推荐小白/设计师)

适合习惯图形化界面操作,进行工作流搭建的用户。

1. 安装插件

进入 ComfyUI 的 custom_nodes 目录,运行终端命令:

git clone https://github.com/Flybirdxx/ComfyUI-Qwen-TTS.git

或者使用 ComfyUI Manager 搜索 "Qwen" 进行安装。

2. 模型下载与放置(关键步骤)

为了避免自动下载占满 C 盘并提高加载速度,强烈建议手动下载

  • 下载地址Hugging Face - Qwen3-TTS Collection
  • 目录结构:
    在 ComfyUI/models/ 下新建 qwen-tts 文件夹。将下载好的模型文件夹完整放入。正确的路径示例:ComfyUI └── models └── qwen-tts ├── Qwen3-TTS-12Hz-1.7B-Base # 用于克隆 ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign # 用于捏声音 └── Qwen3-TTS-12Hz-1.7B-CustomVoice # 用于预设音色

对于国内用户或网络环境不稳定的情况,强烈建议采用手动下载方式,避免 ComfyUI 启动时自动下载失败或卡死。

方法一:ModelScope 魔搭社区下载(推荐国内用户,速度快)

Qwen3-TTS 是阿里出品的模型,在 ModelScope 下载速度极快且无需魔法。

  1. 访问链接
  2. 下载方式:点击网页上的“模型文件” -> “下载”,将整个文件夹下载下来(或者使用 git clone 命令)。

方法二:Hugging Face 下载

适合海外用户。

📂 关键步骤:目录结构放置

下载完成后,请务必按照以下层级放置文件,文件夹名称不能乱改,否则插件无法识别。

请打开您的 ComfyUI 安装目录,进入 models,新建 qwen-tts 文件夹:

ComfyUI安装目录
└── models
    └── qwen-tts  <-- (新建这个文件夹)
        ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign  <-- (模型文件夹1)
        │   ├── config.json
        │   ├── model.safetensors
        │   └── ... (其他文件)
        │
        ├── Qwen3-TTS-12Hz-1.7B-Base         <-- (模型文件夹2)
        │   ├── config.json
        │   ├── model.safetensors
        │   └── ...
        │
        └── Qwen3-TTS-12Hz-1.7B-CustomVoice  <-- (模型文件夹3)
            ├── config.json
            └── model.safetensors

⚠️ 注意事项:

  1. 请确保下载的是 文件夹,而不是散落的文件。
  2. 对于 8G 显存用户,只下载 1.7B 版本即可,不需要下载 0.6B 版本。
  3. speech_tokenizer 相关文件包含在模型文件夹内,无需额外单独下载。

3. 常用节点说明

  • VoiceDesignNode捏声音。输入文字描述(如“温柔的御姐音”),生成全新声音。
  • VoiceCloneNode克隆。输入一段参考音频(5-15秒),复刻该声音说任意话。
  • CustomVoiceNode预设。使用官方内置的 9 种高质量音色(如 Vivian, Ryan)。

三、 部署方式 B:Python 代码版(推荐开发者)

适合需要集成到应用或进行批量处理的用户。

1. 环境安装

# 创建虚拟环境
conda create -n qwen-tts python=3.12 -y
conda activate qwen-tts

# 安装官方包
pip install -U qwen-tts

# 安装 FlashAttention (大幅降低显存占用,8G显存必装)
pip install -U flash-attn --no-build-isolation

2. 代码示例(8G显存优化)

使用 bfloat16 精度加载是 8G 显卡运行 1.7B 模型的关键。

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# 加载模型 (这里以 VoiceDesign 为例)
# 首次运行会自动下载,建议配置 hf_transfer 加速
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,  # 核心:使用 bf16 节省显存
    attn_implementation="flash_attention_2" # 核心:开启加速
)

# 生成语音
text = "你好,我是通义千问语音助手。"
instruct = "用充满磁性的新闻主播男声,语速适中。"

wavs, sr = model.generate_voice_design(
    text=text,
    language="Chinese",
    instruct=instruct
)

sf.write("output.wav", wavs[0], sr)

四、 模型版本选择指南

模型名称后缀用途8G显存建议
基础版-Base复刻克隆。需要提供一段参考录音。✅ 推荐 (1.7B)
设计版-VoiceDesign凭空创造。通过文字描述(Prompt)生成声音。✅ 推荐 (1.7B)
自定义版-CustomVoice标准播报。使用内置的几个高品质音色。✅ 推荐 (1.7B)

注:0.6B 版本虽然速度快,但情感表现力和音质细节不如 1.7B,除非显存极度紧张(<6G),否则首选 1.7B。


五、 避坑指南

  1. 显存溢出 (OOM):
    • 确保已安装 flash-attn
    • 代码中必须指定 dtype=torch.bfloat16
    • ComfyUI 中不要同时加载多个大模型,随用随加载。
  2. WebUI 麦克风无法使用:
    • 如果你搭建了 Web 服务供他人访问,浏览器要求必须使用 HTTPS 协议才能调用麦克风权限。本地测试 (localhost) 不受影响。
  3. 下载超时:
    • 国内环境建议使用 huggingface-cli 搭配镜像站下载,或者直接下载模型文件到本地指定目录。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。