本项目演示了在 CPU 上运行 DeepSeek-R1-Q8_0 模型的效果,无需GPU,也能快速体验6710亿参数大模型。
DeepSeek-R1-Q8_0
实测 15s 载入模型,27s 进入对话,生成速度约 7 tokens/s 。
fork 本仓库到自己的组织下,然后点击云原生671b,启动 稍等片刻即可体验,无需等待下载模型,零帧起步。
fork
云原生671b,启动
参见玄武实验室文章 DeepSeek-671B纯CPU部署经验分享
Run DeepSeek-R1 671b via CNB\n123