logo
0
0
Login
cnb-demo-L20
Forkfromtencent/hunyuan/examples/Hunyuan-A13B-Quick-Start, behind:cnb-demo-L201 commits

Hunyuan-A13B Quick Start on CNB

本仓库演示了如何在 CNB 上快速运行 Hunyuan-A13B 模型 Instruct-GPTQ-Int4 尺寸的推理服务

Python Version Torch Version CUDA Version

快速开始步骤:

  • Fork 本仓库, 然后启动 云原生开发 并进入
  • 在命令行 TERMINAL 中执行 sh start-api-server.sh 启动推理服务, 约4分钟
  • 新开一个 TERMINAL 运行 sh openapi.sh 发起 inference 对话调用
  • 更改 openapi.sh 中的 content 内容可换成其他对话内容

技术细节

  • 当前环境在 GPU L20 上运行, 需要 46G 可用显存, 启动前请注意核对, 防止有其他进程使用显存造成显存不足. (可以 kill 1 关闭当前环境后, 重开 云原生开发 更换显卡)
  • --max-model-len 默认 32768, 这里为了降低显存占用调小到了 8192
  • 使用的是 A13B-Instruct-GPTQ-Int4 尺寸的模型, 其他尺寸模型显存需求参考官方文档
  • CNB 运行环境搭建参考 Dockerfile, 也可参考 git 提交记录, 制作自己的仓库

操作演示视频

参考资料

About

演示了如何在 CNB 上快速运行 Hunyuan-A13B 模型 Instruct-GPTQ-Int4 尺寸的推理服务

Language
Python85.5%
Markdown6.1%
License2.1%
Shell1.2%
Others5.1%