本项目演示了在 CPU 上运行 DeepSeek-R1-Q8_0 模型的效果,无需GPU,也能快速体验6710亿参数大模型。
DeepSeek-R1-Q8_0
实测 15s 载入模型,27s 进入对话,生成速度约 7 tokens/s 。
fork 本仓库到自己的组织下,然后点击云原生671b,启动 稍等片刻即可体验,无需等待下载模型,零帧起步。
fork
云原生671b,启动
参见玄武实验室文章 DeepSeek-671B纯CPU部署经验分享
本仓同款机型:SA9.96XLARGE1152,更多资料见: 第九代云服务器
Run DeepSeek-R1 671b via CNB 64 个内核的CPU上可以跑起来 每秒7个token 在小显存的GPU上启动不起来,毕竟太大了 main分支是CPU分支可以工作的 be20分支是GPU分支 无法共组