logo
0
0
WeChat Login
MAE5blog<admin@mae5.com>
Switch to vLLM-Omni inference

Qwen3-TTS CNB (长文本克隆音色)

本项目用于在 CNB WebIDE 中使用 Qwen3-TTS-12Hz-1.7B-Base 进行长文本克隆音色,采用 vLLM-Omni 离线推理 + 分段拼接 的方案,并通过 CNB 模型镜像拉取权重。

使用方式(WebIDE)

  1. 进入 WebIDE,打开 notebooks/qwen3_tts_long_text_clone.ipynb
  2. 按顺序运行单元格:
    • 会从 CNB 模型镜像拉取模型到本地 models/ 目录。
    • 设置 REF_AUDIO_PATHREF_TEXTLONG_TEXT
    • 通过 vLLM-Omni 进行离线生成,自动分段并输出到 /workspace/output_long_clone.wav

依赖与环境

  • 需要 GPU(建议 >= 24GB)
  • Python 3.12
  • 主要依赖:qwen-ttsvllmvllm-omnitorchtransformerssoundfilelibrosa

模型镜像

从 CNB 镜像拉取:

  • https://cnb.cool/ai-models/Qwen/Qwen3-TTS-12Hz-1.7B-Base.git
  • https://cnb.cool/ai-models/Qwen/Qwen3-TTS-Tokenizer-12Hz.git

默认缓存目录:/workspace/models(可在 notebook 里调整)。

vLLM 配置

vLLM-Omni 的阶段配置保存在 qwen3_tts_stage.yaml,可按需调整显存占用等参数。