logo
0
0
WeChat Login
docs: update

测试 hunyuan-7B 等模型在 cpu 上跑

  • 方法一:在bash中执行 sh start_dailog.sh 直接启动对话模式(没法打中文)。
  • 方法二:start_server.sh 启动,call_server.sh 调用。

记录

  • tencent_Hunyuan-7B-Instruct-Q4_K_M.gguf 和 tencent_Hunyuan-7B-Instruct-Q8_0.gguf, 32核:
    • 启动很快,5s左右。
    • 生成内容时,32核cpu打满,8G内存, 生成速度 2~3 token/s
  • tencent_Hunyuan-7B-Instruct-bf16.gguf , 32核:
    • 启动同上
    • 生成内容时,32核cpu打满,14.5G内存, 生成速度 0.94 token/s
  • tencent_Hunyuan-1.8B-Instruct-Q8_0.gguf , 32核:
    • 启动同上
    • 生成内容时,32核cpu打满,3.6G内存, 生成速度 3~4 token/s
    • 效果较差,容易答非所问。(可能用于agent instruct 驱动会好点?)

模型 Benchmark 参考指标

硬件对比

  • CPU 运行:
    • Hunyuan-7B-Instruct-Q8_0: 32核 cpu, 2~3 token/s, 模型文件7.4G , 消费级电脑、笔记本
    • Deepseek-R1 Q8_0 : 384核 7 token/s, 模型文件 664G, 专业服务器SA9
  • GPU 运行:
    • Hunyuan-7B-Instruct GPU L20 : 40 token/s , 显存38G左右, vllm. (如果是TensorRT-vllm 应该能再快20%)

效果指标

文件见 docs/hunyuan-7b-metric-slim.numbers

metric

参考

  • 模型仓库 bartowski/tencent_Hunyuan-7B-Instruct-GGUF