logo
3
1
Login
docs: update doc

Hunyuan-7B Quick Start on CNB

本仓库演示了如何在 CNB 上快速运行 Hunyuan-7B 模型的理服务

Python Version Torch Version CUDA Version

快速开始:

  • Fork 本仓库, 然后启动 云原生开发 并进入
  • 在命令行 TERMINAL 中执行 sh start-api-server.sh 启动推理服务
  • 新开一个 TERMINAL 运行 sh call-openapi.sh 发起 inference 对话调用
  • 更改 call-openapi.sh 中的 content 内容可换成其他对话内容

技术细节

  • 云原生开发环境,分配的是单张显卡,所以参数 --tp_size 1
  • 模型支持以下主流推理框架,在不同分支上进行了演示,可切换分支后启动云原生开发测试:
    • TensorRT-LLM 在 cnb-demo-trtllm 分支 (也是默认分支)
    • vLLM 在 cnb-demo-vllm 分支
    • SGLang 在 cnb-demo-sglang 分支

操作演示视频

  • 与 A13B 快速开始类似,可以参考

参考资料