Qwen3-TTS 部署与使用指南-closerAI(未授权)

Qwen3-TTS 是阿里通义千问团队发布的最新语音生成模型，具备极其强大的零样本语音设计与语音克隆能力。本文将指导如何在本地环境（特别是 8G 显存显卡）下高效部署和使用。

一、硬件与环境要求

显卡 (GPU): 推荐 NVIDIA 显卡。
- 8G 显存: 可完美运行 1.7B (bf16精度) 模型（推荐）。
- <6G 显存: 建议使用 0.6B 模型。
内存 (RAM): 建议 16GB 以上。
系统: Windows / Linux / macOS (MPS支持正在完善中)。
基础软件: Python 3.10+ (推荐 3.12), CUDA 12.1+, Git。

二、部署方式 A：ComfyUI 插件版（推荐小白/设计师）

适合习惯图形化界面操作，进行工作流搭建的用户。

1. 安装插件

进入 ComfyUI 的 custom_nodes 目录，运行终端命令：

git clone https://github.com/Flybirdxx/ComfyUI-Qwen-TTS.git

或者使用 ComfyUI Manager 搜索 "Qwen" 进行安装。

2. 模型下载与放置（关键步骤）

为了避免自动下载占满 C 盘并提高加载速度，强烈建议手动下载。

下载地址: Hugging Face - Qwen3-TTS Collection
目录结构:
在 ComfyUI/models/ 下新建 qwen-tts 文件夹。将下载好的模型文件夹完整放入。正确的路径示例：ComfyUI └── models └── qwen-tts ├── Qwen3-TTS-12Hz-1.7B-Base # 用于克隆 ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign # 用于捏声音 └── Qwen3-TTS-12Hz-1.7B-CustomVoice # 用于预设音色

对于国内用户或网络环境不稳定的情况，强烈建议采用手动下载方式，避免 ComfyUI 启动时自动下载失败或卡死。

方法一：ModelScope 魔搭社区下载（推荐国内用户，速度快）

Qwen3-TTS 是阿里出品的模型，在 ModelScope 下载速度极快且无需魔法。

访问链接：
- 语音设计版 (捏声音): Qwen3-TTS-12Hz-1.7B-VoiceDesign
- 语音克隆版 (复刻): Qwen3-TTS-12Hz-1.7B-Base
- 预设音色版: Qwen3-TTS-12Hz-1.7B-CustomVoice
下载方式：点击网页上的“模型文件” -> “下载”，将整个文件夹下载下来（或者使用 git clone 命令）。

方法二：Hugging Face 下载

适合海外用户。

访问 Hugging Face 的 Qwen3-TTS 合集页面，下载对应的 1.7B 版本文件夹。

📂 关键步骤：目录结构放置

下载完成后，请务必按照以下层级放置文件，文件夹名称不能乱改，否则插件无法识别。

请打开您的 ComfyUI 安装目录，进入 models，新建 qwen-tts 文件夹：

ComfyUI安装目录
└── models
    └── qwen-tts  <-- (新建这个文件夹)
        ├── Qwen3-TTS-12Hz-1.7B-VoiceDesign  <-- (模型文件夹1)
        │   ├── config.json
        │   ├── model.safetensors
        │   └── ... (其他文件)
        │
        ├── Qwen3-TTS-12Hz-1.7B-Base         <-- (模型文件夹2)
        │   ├── config.json
        │   ├── model.safetensors
        │   └── ...
        │
        └── Qwen3-TTS-12Hz-1.7B-CustomVoice  <-- (模型文件夹3)
            ├── config.json
            └── model.safetensors

⚠️ 注意事项：

请确保下载的是 文件夹，而不是散落的文件。

对于 8G 显存用户，只下载 1.7B 版本即可，不需要下载 0.6B 版本。

speech_tokenizer 相关文件包含在模型文件夹内，无需额外单独下载。

3. 常用节点说明

VoiceDesignNode: 捏声音。输入文字描述（如“温柔的御姐音”），生成全新声音。
VoiceCloneNode: 克隆。输入一段参考音频（5-15秒），复刻该声音说任意话。
CustomVoiceNode: 预设。使用官方内置的 9 种高质量音色（如 Vivian, Ryan）。

三、部署方式 B：Python 代码版（推荐开发者）

适合需要集成到应用或进行批量处理的用户。

1. 环境安装

# 创建虚拟环境
conda create -n qwen-tts python=3.12 -y
conda activate qwen-tts

# 安装官方包
pip install -U qwen-tts

# 安装 FlashAttention (大幅降低显存占用，8G显存必装)
pip install -U flash-attn --no-build-isolation

2. 代码示例（8G显存优化）

使用 bfloat16 精度加载是 8G 显卡运行 1.7B 模型的关键。

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# 加载模型 (这里以 VoiceDesign 为例)
# 首次运行会自动下载，建议配置 hf_transfer 加速
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,  # 核心：使用 bf16 节省显存
    attn_implementation="flash_attention_2" # 核心：开启加速
)

# 生成语音
text = "你好，我是通义千问语音助手。"
instruct = "用充满磁性的新闻主播男声，语速适中。"

wavs, sr = model.generate_voice_design(
    text=text,
    language="Chinese",
    instruct=instruct
)

sf.write("output.wav", wavs[0], sr)

四、模型版本选择指南

模型名称	后缀	用途	8G显存建议
基础版	`-Base`	复刻克隆。需要提供一段参考录音。	✅ 推荐 (1.7B)
设计版	`-VoiceDesign`	凭空创造。通过文字描述（Prompt）生成声音。	✅ 推荐 (1.7B)
自定义版	`-CustomVoice`	标准播报。使用内置的几个高品质音色。	✅ 推荐 (1.7B)

注：0.6B 版本虽然速度快，但情感表现力和音质细节不如 1.7B，除非显存极度紧张（<6G），否则首选 1.7B。

五、避坑指南

显存溢出 (OOM):
- 确保已安装 flash-attn。
- 代码中必须指定 dtype=torch.bfloat16。
- ComfyUI 中不要同时加载多个大模型，随用随加载。
WebUI 麦克风无法使用:
- 如果你搭建了 Web 服务供他人访问，浏览器要求必须使用 HTTPS 协议才能调用麦克风权限。本地测试 (localhost) 不受影响。
下载超时:
- 国内环境建议使用 huggingface-cli 搭配镜像站下载，或者直接下载模型文件到本地指定目录。

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Qwen3-TTS 部署与使用指南

一、硬件与环境要求

二、部署方式 A：ComfyUI 插件版（推荐小白/设计师）

1. 安装插件

2. 模型下载与放置（关键步骤）

方法一：ModelScope 魔搭社区下载（推荐国内用户，速度快）

方法二：Hugging Face 下载

📂 关键步骤：目录结构放置

3. 常用节点说明

三、部署方式 B：Python 代码版（推荐开发者）

1. 环境安装

2. 代码示例（8G显存优化）

四、模型版本选择指南

五、避坑指南

评论(0)

提示：请文明发言取消回复

🚨【马年优惠】普通永久会员¥599！仅剩9个,抢完即止！

作者信息

文章展示

唤醒空间智能：京东开源 JoyAI-Image 统一多模态基础模型深度解析

Gemma 4 震撼发布：重塑本地 AI 推理与智能体工作流

claude code泄露的51万+行代码你拿到了，你又会做啥?一个多Agent的设计框架直接提炼成SKILL，生产级Agent自由无限生成！

ComfyUI-PascalEditor-3D 建筑编辑器

Claw-Code 项目：Claude Code Agent Harness 的干净室重实现及其对开源 LLM Agent 框架的启示

解锁 ComfyUI 智能巅峰：Qwen 3.5 去审查量化模型使用指南（针对 8G 显存优化）

Qwen3-TTS 部署与使用指南

一、 硬件与环境要求

二、 部署方式 A：ComfyUI 插件版（推荐小白/设计师）

1. 安装插件

2. 模型下载与放置（关键步骤）

方法一：ModelScope 魔搭社区下载（推荐国内用户，速度快）

方法二：Hugging Face 下载

📂 关键步骤：目录结构放置

3. 常用节点说明

三、 部署方式 B：Python 代码版（推荐开发者）

1. 环境安装

2. 代码示例（8G显存优化）

四、 模型版本选择指南

五、 避坑指南

评论(0)

提示：请文明发言 取消回复

相关文章

🚨【马年优惠】普通永久会员¥599！仅剩9个,抢完即止！

作者信息

文章展示

一、硬件与环境要求

二、部署方式 A：ComfyUI 插件版（推荐小白/设计师）

三、部署方式 B：Python 代码版（推荐开发者）

四、模型版本选择指南

五、避坑指南

提示：请文明发言取消回复