Hunyuan-A13B Quick Start on CNB
本仓库演示了如何在 CNB 上快速运行 Hunyuan-A13B 模型 Instruct-GPTQ-Int4 尺寸的推理服务

- Fork 本仓库, 然后启动 云原生开发 并进入
- 在命令行 TERMINAL 中执行
sh start-api-server.sh 启动推理服务, 约4分钟
- 新开一个 TERMINAL 运行
sh openapi.sh 发起 inference 对话调用
- 更改
openapi.sh 中的 content 内容可换成其他对话内容
- 当前环境在 GPU L20 上运行, 需要 46G 可用显存, 启动前请注意核对, 防止有其他进程使用显存造成显存不足. (可以 kill 1 关闭当前环境后, 重开 云原生开发 更换显卡)
--max-model-len 默认 32768, 这里为了降低显存占用调小到了 8192
- 使用的是 A13B-Instruct-GPTQ-Int4 尺寸的模型, 其他尺寸模型显存需求参考官方文档
- CNB 运行环境搭建参考 Dockerfile, 也可参考 git 提交记录, 制作自己的仓库