logo
WeChat Login
multimedia
multimedia
多媒体仓库
音频,视频等处理仓库
Recent updates
DeepBeepMeep 的 WanGP:GPU 可访问的最佳开源视频生成模型,WanGP 支持Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX Video,Kandinsky 5, Z-Image,TTS ,Flux FlashVSR
现有自回归大规模文本转语音(TTS)模型在语音自然度方面具有优势,但其逐token生成机制难以精确控制合成语音的时长。这在需要严格视音频同步的应用(如视频配音)中成为显著限制。
Shell
0100
项目来源:https://github.com/Soul-AILab/SoulX-Podcast SoulX-Podcast 专为播客式多轮、多说话人对话语音生成而设计,同时在常规独白 TTS 任务中也能实现卓越的性能。 为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast 集成了一系列副语言控制,支持普通话和英语,以及多种中国方言,包括四川话、河南话和粤语,从而实现更个性化的播客风格语音生成。
Shell
2800