python app_talk.py即可2023.12 更新 📆
用户可以上传任意图片进行对话
2024.01 更新 📆
2024.02 更新 📆
2024.04 更新 📆
2024.05 更新 📆
2024.06 更新 📆
2024.08 更新 📆
2024.09 更新 📆
2024.12 更新 📆
2025.02 更新 📆
Linly-Talker是一款创新的数字人对话系统,它融合了最新的人工智能技术,包括大型语言模型(LLM)🤖、自动语音识别(ASR)🎙️、文本到语音转换(TTS)🗣️和语音克隆技术🎤。这个系统通过Gradio平台提供了一个交互式的Web界面,允许用户上传图片📷与AI进行个性化的对话交流💬。
系统的核心特点包括:
Linly-Talker的设计理念是创造一种全新的人机交互方式,不仅仅是简单的问答,而是通过高度集成的技术,提供一个能够理解、响应并模拟人类交流的智能数字人。

[!NOTE]
查看我们的介绍视频 demo video
在B站上我录了一系列视频,也代表我更新的每一步与使用方法,详细查看数字人智能对话系统 - Linly-Talker合集
语音对话Linly,Qwen和GeminiPro的使用任意数字人照片进行对话FastAPI调用方式TTS加入高级选项,可设置对应人声以及音调等参数,增加声音的多样性字幕,能够更好的进行可视化多轮对话系统(提高数字人的交互性和真实感,增强数字人的智能)语音克隆技术,加入GPT-SoVITS,只需要一分钟的语音简单微调即可(语音克隆合成自己声音,提高数字人分身的真实感和互动体验)实时语音识别(人与数字人之间就可以通过语音进行对话交流)[!IMPORTANT]
🔆 该项目 Linly-Talker 正在进行中 - 欢迎提出PR请求!如果您有任何关于新的模型方法、研究、技术或发现运行错误的建议,请随时编辑并提交 PR。您也可以打开一个问题或通过电子邮件直接联系我。📩⭐ 如果您发现这个Github Project有用,请给它点个星!🤩
[!TIP]
如果在部署的时候有任何的问题,可以关注常见问题汇总.md部分,我已经整理了可能出现的所有问题,另外交流群也在这里,我会定时更新,感谢大家的关注与使用!!!
| 文字/语音对话 | 数字人回答 |
|---|---|
| 应对压力最有效的方法是什么? | |
| 如何进行时间管理? | |
| 撰写一篇交响乐音乐会评论,讨论乐团的表演和观众的整体体验。 | |
| 翻译成中文:Luck is a dividend of sweat. The more you sweat, the luckier you get. |
[!NOTE]
AutoDL已发布镜像,可以直接使用,https://www.codewithgpu.com/i/Kedreamix/Linly-Talker/Kedreamix-Linly-Talker,也可以使用docker来直接创建环境,我也会持续不断的更新镜像
docker pull registry.cn-beijing.aliyuncs.com/codewithgpu2/kedreamix-linly-talker:afGA8RPDLfWindows我加入了一个python一键整合包,可以按顺序进行运行,按照需求按照相应的依赖,并且下载对应的模型,即可运行,主要按照conda以后从02开始安装pytorch进行运行,如果有问题,请随时与我沟通
下载代码
git clone https://github.com/Kedreamix/Linly-Talker.git --depth 1
cd Linly-Talker
git submodule update --init --recursive
若使用Linly-Talker,可以直接用anaconda进行安装环境,几乎包括所有的模型所需要的依赖,具体操作如下:
conda create -n linly python=3.10
conda activate linly
# pytorch安装方式1:conda安装
# CUDA 11.8
# conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=11.8 -c pytorch -c nvidia
# CUDA 12.1
# conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
# CUDA 12.4
# conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.4 -c pytorch -c nvidia
# pytorch安装方式2:pip 安装
# CUDA 11.8
# pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu118
# CUDA 12.1
# pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
# CUDA 12.4
# pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124
conda install -q ffmpeg==4.2.2 # ffmpeg==4.2.2
# 升级pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install tb-nightly -i https://mirrors.aliyun.com/pypi/simple
pip install -r requirements_webui.txt
# 安装有关musetalk依赖
pip install --no-cache-dir -U openmim
mim install mmengine
mim install "mmcv==2.1.0"
mim install "mmdet>=3.1.0"
mim install "mmpose>=1.1.0"
# 💡CosyVoice的ttsfrd可以用WeTextProcessing代替,所以可以省略一下几步,同时保证能够在其他python版本中运行
# ⚠️注意 首先需要去下载CosyVoice-ttsfrd,需要先完成下载模型再经过这一步
# mkdir -p CosyVoice/pretrained_models # 创建文件夹 CosyVoice/pretrained_models
# mv checkpoints/CosyVoice_ckpt/CosyVoice-ttsfrd CosyVoice/pretrained_models # 移动目录
# unzip CosyVoice/pretrained_models/CosyVoice-ttsfrd/resource.zip # 解压
# 该whl库,只适用于python 3.8 的版本
# pip install CosyVoice/pretrained_models/CosyVoice-ttsfrd/ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl
# 安装NeRF-based依赖,可能问题较多,可以先放弃
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
# 如果在安装pytorch3d中出现问题,可以直接运行以下命令
# python scripts/install_pytorch3d.py
pip install -r TFG/requirements_nerf.txt
# 若pyaudio出现问题,可安装对应依赖 fatal error: portaudio.h
# sudo apt-get update
# sudo apt-get install libasound-dev portaudio19-dev libportaudio2 libportaudiocpp0
# 注意以下几个模块,若安装不成功,可以进入路径利用pip install . 或者 python setup.py install编译安装
# NeRF/freqencoder
# NeRF/gridencoder
# NeRF/raymarching
# NeRF/shencoder
# If you encounter sox compatibility issues
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
[!NOTE]
安装过程可能耗时很长。
以下是旧版本的一些安装方法,可能存在会一些依赖冲突的问题,但是也不会出现太多bug,但是为了更好更方便的安装,我就更新了上述版本,以下版本可以忽略,或者遇到问题可以参考一下
首先使用anaconda安装环境,安装pytorch环境,具体操作如下:
conda create -n linly python=3.10 conda activate linly # pytorch安装方式1:conda安装(推荐) conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch # pytorch安装方式2:pip 安装 pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113 conda install -q ffmpeg # ffmpeg==4.2.2 pip install -r requirements_app.txt若使用语音克隆等模型,需要更高版本的Pytorch,但是功能也会更加丰富,不过需要的驱动版本可能要到cuda11.8,可选择
conda create -n linly python=3.10 conda activate linly pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118 conda install -q ffmpeg # ffmpeg==4.2.2 pip install -r requirements_app.txt # 安装语音克隆对应的依赖 pip install -r VITS/requirements_gptsovits.txt若希望使用NeRF-based等模型等话,可能需要安装一下对应的环境
# 安装NeRF对应的依赖 pip install "git+https://github.com/facebookresearch/pytorch3d.git" pip install -r TFG/requirements_nerf.txt # 若pyaudio出现问题,可安装对应依赖 # sudo apt-get update # sudo apt-get install libasound-dev portaudio19-dev libportaudio2 libportaudiocpp0 # 注意以下几个模块,若安装不成功,可以进入路径利用pip install . 或者 python setup.py install编译安装 # NeRF/freqencoder # NeRF/gridencoder # NeRF/raymarching # NeRF/shencoder若使用PaddleTTS,可安装对应的环境
pip install -r TTS/requirements_paddle.txt若使用FunASR语音识别模型,可安装环境
pip install -r ASR/requirements_funasr.txt若使用MuesTalk模型,可安装环境
pip install --no-cache-dir -U openmim mim install mmengine mim install "mmcv>=2.0.1" mim install "mmdet>=3.1.0" mim install "mmpose>=1.1.0" pip install -r TFG/requirements_musetalk.txt
[!NOTE]
接下来还需要安装对应的模型,有以下下载方式,下载后安装文件架结构放置,文件夹结构在本文最后有说明,建议从modelscope下载,会第一时间更新
- Baidu (百度云盘) (Password:
linl)- huggingface
- modelscope
- Quark(夸克网盘)
我制作一个脚本可以完成下述所有模型的下载,无需用户过多操作。这种方式适合网络稳定的情况,并且特别适合 Linux 用户。对于 Windows 用户,也可以使用 Git 来下载模型。如果网络环境不稳定,用户可以选择使用手动下载方法,或者尝试运行 Shell 脚本来完成下载。脚本具有以下功能。
sh scripts/download_models.sh
HuggingFace下载
如果速度太慢可以考虑镜像,参考 简便快捷获取 Hugging Face 模型(使用镜像站点)
# 从huggingface下载预训练模型
git lfs install
git clone https://huggingface.co/Kedreamix/Linly-Talker --depth 1
# git lfs clone https://huggingface.co/Kedreamix/Linly-Talker
# pip install -U huggingface_hub
# export HF_ENDPOINT=https://hf-mirror.com # 使用镜像网站
huggingface-cli download --resume-download --local-dir-use-symlinks False Kedreamix/Linly-Talker --local-dir Linly-Talker
ModelScope下载
# 从modelscope下载预训练模型
# 1. git 方法
git lfs install
git clone https://www.modelscope.cn/Kedreamix/Linly-Talker.git --depth 1
# git lfs clone https://www.modelscope.cn/Kedreamix/Linly-Talker.git --depth 1
# 2. Python 代码下载
pip install modelscope
from modelscope import snapshot_download
model_dir = snapshot_download('Kedreamix/Linly-Talker', resume_download=True, cache_dir='./', revision='master')
移动所有模型到当前目录
如果百度网盘下载后,可以参考文档最后目录结构来移动目录
# 移动所有模型到当前目录
# checkpoint中含有SadTalker和Wav2Lip等权重
mv Linly-Talker/checkpoints/* ./checkpoints
# 若使用GFPGAN增强,安装对应的库
# pip install gfpgan
# mv Linly-Talker/gfpan ./
# 语音克隆模型
mv Linly-Talker/GPT_SoVITS/pretrained_models/* ./GPT_SoVITS/pretrained_models/
# Qwen大模型
mv Linly-Talker/Qwen ./
# MuseTalk模型
mkdir -p ./Musetalk/models
mv Linly-Talker/MuseTalk/* ./Musetalk/models
为了大家的部署使用方便,更新了一个configs.py文件,可以对其进行一些超参数修改即可
# 设备运行端口 (Device running port)
port = 6006
# api运行端口及IP (API running port and IP)
mode = 'api' # api 需要先运行Linly-api-fast.py,暂时仅仅适用于Linly
# 本地端口localhost:127.0.0.1 全局端口转发:"0.0.0.0"
ip = '127.0.0.1'
api_port = 7871
# LLM模型路径 (Linly model path)
mode = 'offline'
model_path = 'Qwen/Qwen-1_8B-Chat'
# ssl证书 (SSL certificate) 麦克风对话需要此参数
# 最好调整为绝对路径
ssl_certfile = "./https_cert/cert.pem"
ssl_keyfile = "./https_cert/key.pem"
在 api/README.md 文件中,我们详细介绍了 Linly-Talker API 的使用和配置。这些文档为用户提供了关于如何调用 API、所需的参数、返回的数据格式等信息。通过查阅这些文档,用户可以深入了解如何通过 API 接口来实现 Linly-Talker 的功能,包括启动对话、上传图片、进行语音识别和生成语音等操作。
要获得这些详细的 API 接口说明,请访问 api/README.md 文件。
详细有关于语音识别的使用介绍与代码实现可见 ASR - 同数字人沟通的桥梁
借鉴OpenAI的Whisper实现了ASR的语音识别,具体使用方法参考 https://github.com/openai/whisper
阿里的FunASR的语音识别效果也是相当不错,而且时间也是比whisper更快的,对中文实际上是更好的。
同时funasr更能达到实时的效果,所以也将FunASR添加进去了,在ASR文件夹下的FunASR文件里可以进行体验,参考 https://github.com/alibaba-damo-academy/FunASR。
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
详细有关于语音识别的使用介绍与代码实现可见 TTS - 赋予数字人真实的语音交互能力
借鉴使用微软语音服务,具体使用方法参考https://github.com/rany2/edge-tts
[!Warning]
由于Edge TTS仓库出现了一些问题,似乎是因为微软对某些IP进行了限制,可参考403 error is back/need to implement Sec-MS-GEC token Add support for clock adjustment for Sec-MS-GEC token,暂时发现还是不稳定,我有进行修改,若感觉还是不稳定,请使用其他方法,推荐使用CosyVoice方法
在实际使用过程中,可能会遇到需要离线操作的情况。由于Edge TTS需要在线环境才能生成语音,因此我们选择了同样开源的PaddleSpeech作为文本到语音(TTS)的替代方案。虽然效果可能有所不同,但PaddleSpeech支持离线操作。更多信息可参考PaddleSpeech的GitHub页面:PaddleSpeech。
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
详细有关于语音克隆的使用介绍与代码实现可见 Voice Clone - 在对话时悄悄偷走你的声音
感谢大家的开源贡献,我借鉴了当前开源的语音克隆模型 GPT-SoVITS,我认为效果是相当不错的,项目地址可参考https://github.com/RVC-Boss/GPT-SoVITS
我将一些训练好的克隆权重放在了Quark(夸克网盘)中,大家可以自取权重和参考音频。
Coqui XTTS是一个领先的深度学习文本到语音任务(TTS语音生成模型)工具包,通过使用一段5秒钟以上的语音频剪辑就可以完成声音克隆将语音克隆到不同的语言。
🐸TTS 是一个用于高级文本转语音生成的库。
🚀 超过 1100 种语言的预训练模型。
🛠️ 用于以任何语言训练新模型和微调现有模型的工具。
📚 用于数据集分析和管理的实用程序。
CosyVoice 是阿里通义实验室开源的一款多语言语音理解模型,专注于高质量的语音合成。该模型经过超过15万小时的数据训练,支持中文、英语、日语、粤语和韩语等多种语言的语音合成。CosyVoice 在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力等方面表现出色。
CosyVoice 支持 one-shot 音色克隆技术,仅需3至10秒的原始音频即可生成逼真自然的模拟音色,包括韵律和情感等细节。
GitHub项目地址:https://github.com/FunAudioLLM/CosyVoice
CosyVoice 包含多个预训练的语音合成模型,主要包括:
主要功能和特性
暂时 Linly-Talker 中加入了 预训练音色、3s极速复刻 和 跨语种复刻 三种功能,更多有趣的可以继续关注 Linly-Talker,以下是CosyVoice的一些效果
| PROMPT TEXT | PROMPT SPEECH | TARGET TEXT | RESULT | |
|---|---|---|---|---|
| 预训练音色 | 中文女 音色('中文女', '中文男', '日语男', '粤语女', '英文女', '英文男', '韩语女') | — | 你好,我是通义生成式语音大模型,请问有什么可以帮您的吗? | |
| 3s语言复刻 | 希望你以后能够做的比我还好呦。 | 收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。 | ||
| 跨语种复刻 | 在那之后,完全收购那家公司,因此保持管理层的一致性,利益与即将加入家族的资产保持一致。这就是我们有时不买下全部的原因。 | < |en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that's coming into the family is a reason why sometimes we don't buy the whole thing. |
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
详细有关于数字人生成的使用介绍与代码实现可见 THG - 构建智能数字人
数字人生成可使用SadTalker(CVPR 2023),详情介绍见 https://sadtalker.github.io
在使用前先下载SadTalker模型:
bash scripts/sadtalker_download_models.sh
Baidu (百度云盘) (Password: linl)
如果百度网盘下载,记住是放在checkpoints文件夹下,百度网盘下载的默认命名为sadtalker,实际应该重命名为checkpoints
数字人生成还可使用Wav2Lip(ACM 2020),详情介绍见 https://github.com/Rudrabha/Wav2Lip
在使用前先下载Wav2Lip模型:
| Model | Description | Link to the model |
|---|---|---|
| Wav2Lip | Highly accurate lip-sync | Link |
| Wav2Lip + GAN | Slightly inferior lip-sync, but better visual quality | Link |
| Expert Discriminator | Weights of the expert discriminator | Link |
| Visual Quality Discriminator | Weights of the visual disc trained in a GAN setup | Link |
借鉴于 https://github.com/primepake/wav2lip_288x288 仓库,使用新训练的288模型,能够得到更高质量的结果
同时使用yolo进行检测面部,整体的效果都会更好一点,具体可以在Linly-Talker中进行比较和测试,模型已更新,效果比较如下
| Wav2Lip | Wav2Lipv2 |
|---|---|
ER-NeRF(ICCV2023)是使用最新的NeRF技术构建的数字人,拥有定制数字人的特性,只需要一个人的五分钟左右到视频即可重建出来,具体可参考 https://github.com/Fictionarry/ER-NeRF
已更新,以奥巴马形象作为参考,若考虑更好的效果,可能考虑克隆定制数字人的声音以得到更好的效果。
MuseTalk 是一个实时高质量的音频驱动唇形同步模型,能够以30帧每秒以上的速度在NVIDIA Tesla V100显卡上运行。该模型可以与由 MuseV 生成的输入视频结合使用,作为完整的虚拟人解决方案的一部分。具体可参考 https://github.com/TMElyralab/MuseTalk
MuseTalk 是一个实时高质量的音频驱动唇形同步模型,经过训练可以在 ft-mse-vae 的潜在空间中进行工作。它具有以下特性:
MuseTalk 提供了一个高效且灵活的工具,使虚拟人的面部表情能够精确同步于音频,为实现全方位互动的虚拟人迈出了重要一步。
在Linly-Talker中已经加入了MuseTalk,基于MuseV的视频进行推理,得到了比较理想的速度进行对话,基本达到实时的效果,还是非常不错的,也是可以基于流式进行推理的。
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
详细有关于大模型的使用介绍与代码实现可见 LLM - 大语言模型为数字人赋能
Linly来自深圳大学数据工程国家重点实验室,参考 https://github.com/CVI-SZU/Linly
来自阿里云的Qwen,查看 https://github.com/QwenLM/Qwen
如果想要快速使用,可以选1.8B的模型,参数比较少,在较小的显存也可以正常使用,当然这一部分可以替换
下载 Qwen1.8B 模型: https://huggingface.co/Qwen/Qwen-1_8B-Chat
来自 Google 的 Gemini-Pro,了解更多请访问 https://deepmind.google/technologies/gemini/
请求 API 密钥: https://makersuite.google.com/
来自OpenAI的,需要申请API,了解更多请访问 https://platform.openai.com/docs/introduction
来自清华的,了解更多请访问 https://github.com/THUDM/ChatGLM3
可参考https://github.com/xtekky/gpt4free,免费白嫖使用GPT4等模型
在 webui.py 文件中,轻松选择您需要的模型,⚠️第一次运行要先下载模型,参考Qwen1.8B
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
一些优化:
使用固定的输入人脸图像,提前提取特征,避免每次读取
移除不必要的库,缩短总时间
只保存最终视频输出,不保存中间结果,提高性能
使用OpenCV生成最终视频,比mimwrite更快
Gradio是一个Python库,提供了一种简单的方式将机器学习模型作为交互式Web应用程序来部署。
对Linly-Talker而言,使用Gradio有两个主要目的:
可视化与演示:Gradio为模型提供一个简单的Web GUI,上传图片和文本后可以直观地看到结果。这是展示系统能力的有效方式。
用户交互:Gradio的GUI可以作为前端,允许用户与Linly-Talker进行交互对话。用户可以上传自己的图片并输入问题,实时获取回答。这提供了更自然的语音交互方式。
具体来说,我们在app.py中创建了一个Gradio的Interface,接收图片和文本输入,调用函数生成回应视频,在GUI中显示出来。这样就实现了浏览器交互而不需要编写复杂的前端。
总之,Gradio为Linly-Talker提供了可视化和用户交互的接口,是展示系统功能和让最终用户使用系统的有效途径。
若考虑实时对话,可能需要换个框架,或者对Gradio进行魔改,希望和大家一起努力
之前我将很多个版本都是分开来的,实际上运行多个会比较麻烦,所以后续我增加了变成WebUI一个界面即可体验,后续也会不断更新
现在已加入WebUI的功能如下
文本/语音数字人对话(固定数字人,分男女角色)
任意图片数字人对话(可上传任意图片数字人)
多轮GPT对话(加入历史对话数据,链接上下文)
语音克隆对话(基于GPT-SoVITS设置进行语音克隆,也可根据语音对话的声音进行克隆)
数字人文本/语音播报(根据输入的文字/语音进行播报)
多模块➕多模型➕多选择

可以直接运行webui来得到结果,可以看到的页面如下
# WebUI
python webui.py

这次更新了一下界面,我们可以自由选择GPT-SoVITS微调后的模型来实现,上传参考音频即可很好的克隆声音

这一部分是为了保证每部份代码都是正确的,所以会先对每一个模块都进行测试和改进
启动一共有几种模式,可以选择特定的场景进行设置
第一种只有固定了人物问答,设置好了人物,省去了预处理时间
python app.py

最近更新了第一种模式,加入了Wav2Lip模型进行对话
python appv2.py
第二种是可以任意上传图片进行对话
python app_img.py

第三种是在第一种的基础上加入了大语言模型,加入了多轮的GPT对话
python app_multi.py

现在加入了语音克隆的部分,可以自由切换自己克隆的声音模型和对应的人图片进行实现,这里我选择了一个烟嗓音和男生图片
python app_vits.py
加入了第四种方式,不固定场景进行对话,直接输入语音或者生成语音进行数字人生成,内置了Sadtalker,Wav2Lip,ER-NeRF等方式
ER-NeRF是针对单独一个人的视频进行训练的,所以需要替换特定的模型才能进行渲染得到正确的结果,内置了Obama的权重,可直接用
python app_talk.py

加入了MuseTalk的方式,能够将MuseV的视频进行预处理,预处理后进行对话,速度基本能够达到实时的要求,速度非常快,MuseTalk已加入在WebUI中。
python app_musetalk.py

[!NOTE]
所有的权重部分可以从这下载,百度网盘可能有时候会更新慢一点,建议从夸克网盘下载,会第一时间更新
- Baidu (百度云盘) (Password:
linl)- huggingface
- modelscope
- Quark(夸克网盘)
权重文件夹结构如下
Linly-Talker/ ├── checkpoints │ ├── audio_visual_encoder.pth │ ├── hub │ │ └── checkpoints │ │ └── s3fd-619a316812.pth │ ├── lipsync_expert.pth │ ├── mapping_00109-model.pth.tar │ ├── mapping_00229-model.pth.tar │ ├── May.json │ ├── May.pth │ ├── Obama_ave.pth │ ├── Obama.json │ ├── Obama.pth │ ├── ref_eo.npy │ ├── ref.npy │ ├── ref.wav │ ├── SadTalker_V0.0.2_256.safetensors │ ├── visual_quality_disc.pth │ ├── wav2lip_gan.pth │ └── wav2lip.pth ├── gfpgan │ └── weights │ ├── alignment_WFLW_4HG.pth │ └── detection_Resnet50_Final.pth ├── GPT_SoVITS │ └── pretrained_models │ ├── chinese-hubert-base │ │ ├── config.json │ │ ├── preprocessor_config.json │ │ └── pytorch_model.bin │ ├── chinese-roberta-wwm-ext-large │ │ ├── config.json │ │ ├── pytorch_model.bin │ │ └── tokenizer.json │ ├── README.md │ ├── s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt │ ├── s2D488k.pth │ ├── s2G488k.pth │ └── speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch ├── MuseTalk │ ├── models │ │ ├── dwpose │ │ │ └── dw-ll_ucoco_384.pth │ │ ├── face-parse-bisent │ │ │ ├── 79999_iter.pth │ │ │ └── resnet18-5c106cde.pth │ │ ├── musetalk │ │ │ ├── musetalk.json │ │ │ └── pytorch_model.bin │ │ ├── README.md │ │ ├── sd-vae-ft-mse │ │ │ ├── config.json │ │ │ └── diffusion_pytorch_model.bin │ │ └── whisper │ │ └── tiny.pt ├── Qwen │ └── Qwen-1_8B-Chat │ ├── assets │ │ ├── logo.jpg │ │ ├── qwen_tokenizer.png │ │ ├── react_showcase_001.png │ │ ├── react_showcase_002.png │ │ └── wechat.png │ ├── cache_autogptq_cuda_256.cpp │ ├── cache_autogptq_cuda_kernel_256.cu │ ├── config.json │ ├── configuration_qwen.py │ ├── cpp_kernels.py │ ├── examples │ │ └── react_prompt.md │ ├── generation_config.json │ ├── LICENSE │ ├── model-00001-of-00002.safetensors │ ├── model-00002-of-00002.safetensors │ ├── modeling_qwen.py │ ├── model.safetensors.index.json │ ├── NOTICE │ ├── qwen_generation_utils.py │ ├── qwen.tiktoken │ ├── README.md │ ├── tokenization_qwen.py │ └── tokenizer_config.json ├── Whisper │ ├── base.pt │ └── tiny.pt ├── FunASR │ ├── punc_ct-transformer_zh-cn-common-vocab272727-pytorch │ │ ├── configuration.json │ │ ├── config.yaml │ │ ├── example │ │ │ └── punc_example.txt │ │ ├── fig │ │ │ └── struct.png │ │ ├── model.pt │ │ ├── README.md │ │ └── tokens.json │ ├── speech_fsmn_vad_zh-cn-16k-common-pytorch │ │ ├── am.mvn │ │ ├── configuration.json │ │ ├── config.yaml │ │ ├── example │ │ │ └── vad_example.wav │ │ ├── fig │ │ │ └── struct.png │ │ ├── model.pt │ │ └── README.md │ └── speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch │ ├── am.mvn │ ├── asr_example_hotword.wav │ ├── configuration.json │ ├── config.yaml │ ├── example │ │ ├── asr_example.wav │ │ └── hotword.txt │ ├── fig │ │ ├── res.png │ │ └── seaco.png │ ├── model.pt │ ├── README.md │ ├── seg_dict │ └── tokens.json └── README.md
ASR
TTS
LLM
THG
Voice Clone
[!CAUTION]
在使用本工具时,请遵守相关法律,包括版权法、数据保护法和隐私法。未经原作者和/或版权所有者许可,请勿使用本工具。
Linly-Talker 遵循 MIT Licence。在使用本工具时,请遵守相关法律,包括版权法、数据保护法和隐私法。未经原作者和/或版权所有者许可,请勿使用本工具。未经原作者和/或版权所有者许可,请勿使用本工具。此外,请确保遵守您参考的模型和组件中的所有许可协议。