
Heygem是一款专为Windows系统设计的全离线视频合成工具,它能够精确克隆您的外貌和声音,让您的形象数字化。您可以通过文字和语音驱动虚拟形象,进行视频制作。无需联网,保护隐私的同时,也能享受到便捷和高效的数字体验。

英伟达驱动下载地址 https://www.nvidia.cn/drivers/lookup/
用wsl --list --verbose命令可以查看本机有没有安装过wsl,如下图就是已经安装过,无需再安装
- 安装wsl的命令:
wsl --install- 由于网络原因,可能失败,多试几次
- 安装过程中需要设置新的用户名和密码,设置并记住
用wsl --update更新wsl。

下载 Docker Windows 版,根据机器 CPU 架构选择不同的安装包。
出现这个界面表示安装成功。

运行 Docker

首次运行接受协议和跳过登录



采用Docker方式安装,docker-compose如下:
docker-compose.yml文件在/deploy目录下。
在/deploy目录执行docker-compose up -d
耐心等待一段时间(半小时左右,速度取决于网速),下载会消耗70G左右流量,注意连WIFI
看到Dokcer 中出现三个服务,表示成功了

npm run build:win,执行后会在dist目录下产生HeyGem-1.0.0-setup.exeHeyGem-1.0.0-setup.exe即可安装我们开放了模特训练和视频合成的API,Docker 启动后会在本地暴露几个端口,通过http://127.0.0.1可以调用。
具体代码可以参考
D:\heygem_data\voice\data下
D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的,可以在docker-compose中修改
http://127.0.0.1:18180/v1/preprocess_and_tran接口
参数示例:
{ "format": ".wav", "reference_audio": "xxxxxx/xxxxx.wav", "lang": "zh" }返回示例:
{ "asr_format_audio_url": "xxxx/x/xxx/xxx.wav", "reference_audio_text": "xxxxxxxxxxxx" }记录下返回结果后续音频合成需要用到
接口:http://127.0.0.1:18180/v1/invoke
// 请求参数
{
"speaker": "{uuid}", // 一个UUID保持唯一即可
"text":"xxxxxxxxxx", // 需要合成的文本内容
"format": "wav", // 固定传参
"topP": 0.7, // 固定传参
"max_new_tokens": 1024, // 固定传参
"chunk_length": 100, // 固定传参
"repetition_penalty": 1.2, // 固定传
"temperature": 0.7, // 固定传参
"need_asr": false, // 固定传参
"streaming": false, // 固定传参
"is_fixed_seed": 0, // 固定传参
"is_norm": 0, // 固定传参
"reference_audio": "{voice.asr_format_audio_url}", // 上一步“模特训练”的返回值
"reference_text": "{voice.reference_audio_text}" // 上一步“模特训练”的返回值
}
合成接口:http://127.0.0.1:8383/easy/submit
// 请求参数
{
"audio_url": "{audioPath}", // 音频路径
"video_url": "{videoPath}", // 音频路径
"code": "{uuid}", // 唯一key
"chaofen": 0, // 固定值
"watermark_switch": 0, // 固定值
"pn": 1 // 固定值
}
进度查询:http://127.0.0.1:8383/easy/query?code=${taskCode}
get 请求,参数
taskCode是上面合成接口的返回值
end_sub@hotmail.com