测试 hunyuan-7B 等模型在 cpu 上跑
- 方法一:在bash中执行
sh start_dailog.sh 直接启动对话模式(没法打中文)。
- 方法二:
start_server.sh 启动,call_server.sh 调用。
- tencent_Hunyuan-7B-Instruct-Q4_K_M.gguf 和 tencent_Hunyuan-7B-Instruct-Q8_0.gguf, 32核:
- 启动很快,5s左右。
- 生成内容时,32核cpu打满,8G内存, 生成速度 2~3 token/s
- tencent_Hunyuan-7B-Instruct-bf16.gguf , 32核:
- 启动同上
- 生成内容时,32核cpu打满,14.5G内存, 生成速度 0.94 token/s
- tencent_Hunyuan-1.8B-Instruct-Q8_0.gguf , 32核:
- 启动同上
- 生成内容时,32核cpu打满,3.6G内存, 生成速度 3~4 token/s
- 效果较差,容易答非所问。(可能用于agent instruct 驱动会好点?)
- CPU 运行:
- Hunyuan-7B-Instruct-Q8_0: 32核 cpu, 2~3 token/s, 模型文件7.4G , 消费级电脑、笔记本
- Deepseek-R1 Q8_0 : 384核 7 token/s, 模型文件 664G, 专业服务器SA9
- GPU 运行:
- Hunyuan-7B-Instruct GPU L20 : 40 token/s , 显存38G左右, vllm. (如果是TensorRT-vllm 应该能再快20%)
文件见 docs/hunyuan-7b-metric-slim.numbers

- 模型仓库 bartowski/tencent_Hunyuan-7B-Instruct-GGUF