本项目用于在 CNB WebIDE 中使用 Qwen3-TTS-12Hz-1.7B-Base 进行长文本克隆音色,采用 vLLM-Omni 离线推理 + 分段拼接 的方案,并通过 CNB 模型镜像拉取权重。
notebooks/qwen3_tts_long_text_clone.ipynb。models/ 目录。REF_AUDIO_PATH、REF_TEXT、LONG_TEXT。/workspace/output_long_clone.wav。qwen-tts、vllm、vllm-omni、torch、transformers、soundfile、librosa从 CNB 镜像拉取:
https://cnb.cool/ai-models/Qwen/Qwen3-TTS-12Hz-1.7B-Base.githttps://cnb.cool/ai-models/Qwen/Qwen3-TTS-Tokenizer-12Hz.git默认缓存目录:/workspace/models(可在 notebook 里调整)。
vLLM-Omni 的阶段配置保存在 qwen3_tts_stage.yaml,可按需调整显存占用等参数。