logo
3
0
Login
Forkfromai-models/WestZhang/VibeVoice-Large-pt, ahead:main6 commits
git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice/ pip install -e . pip install flash-attn --no-build-isolation 启动: /workspace/VibeVoice# python demo/gradio_demo.py --model_path /workspace --share 或者 /workspace/VibeVoice# python demo/inference_from_file.py --model_path /workspace --txt_path ../test-chn.txt --speaker_names Xinran Bowen 我的经验:如果经常遇到长文本转码出错,建议使用命令行模式。生成的文件可以安装一个nginx再下载下来即可。我的一个5分钟多的音频就是命令行下生成的,web端死活不成功。 按照官网安装完了,直接启动开始转音频会报错找不到ffprobe文件或者目录。 新开一个终端安装即可: apt-get update && apt-get install -y ffmpeg 包有点大,安装了不少文件。 无需重启,web端重新生成音频即可。 短音频说话的中文怪怪的。长音频比MOSS TTSD慢多了,奇怪。我就是使用的MOSS TTSD的同一个docker镜像。 中间还遇到在生成长音频时没多久就报错,但是看terminal那里还在走进度条。过一会儿web端又提示重新连接成功了。 看进度条太慢了,我stop了,把文本删除了一大部分再次尝试。 成功了一段73s的音频: Speaker 1: 诶,我最近看了一篇讲人工智能的文章,还挺有意思的,想跟你聊聊。 Speaker 2: 哦?是吗,关于啥的啊?又是哪个公司发了什么逆天的新模型吗? Speaker 1: 那倒不是,是一个咱们国内的教授,复旦大学的邱锡鹏教授,他提了一个新概念,叫什么,呃,叫情境扩展,Context Scaling。 Speaker 2: Context Scaling?情境扩展?听起来有点,呃,有点玄乎啊,这是个啥意思? Speaker 1: 对,我一开始也觉得有点抽象,但你看完就觉得,诶,特别有道理。他大概意思就是说啊,咱们现在对人工智能的追求,不能光是把它做得更大,你知道吧,就是不能光堆参数,喂数据。 Speaker 2: 嗯,是,这个我懂。就好像之前大家都在比谁的模型参数多,几千亿,上万亿的。 Speaker 1: 对对对,就是那个意思。他说那个时代,算是第一幕,就是模型规模化的胜利,靠堆料,堆出了像这个ChatGPT这样厉害的通用模型。 Speaker 2: 嗯,是的。 Speaker 1: 然后呢,现在差不多是第二幕,就是大家发现光堆料好像不行了,收益越来越小,就开始搞一些,呃,后训练的优化。 Speaker 2: 哦,后训练优化?比如呢?

About

No description, topics, or website provided.
Language
Others100%