快速体验 QwQ,支持 32b/32b-fp16,无需等待,零帧起步。
Fork 本仓库到自己的组织下云原生开发 启动远程开发环境5~9 秒后,进入远程开发,在命令行中输入以命令即可体验ollama run $ds
适用于无需部署,仅对话的场景,按下 / 键直接提问即可。
在体验之前,为保证正常调用GPU,请保证已经正常安装显卡驱动,以及NVIDIA Container Toolkit,
显卡驱动可参考:手动安装 Tesla 驱动-Linux,在控制台输入nvidia-smi成功显示显卡信息即为安装成功。
NVIDIA Container Toolkit用于在容器中使用GPU,安装可参考nvidia-container-toolkit安装指南,以正常在容器中运行。
在本地或云主机上运行并体验,以 32b 为例,运行此命令:
docker run --gpus=all --rm -it docker.cnb.cool/anyexyz/qwq/32b:latest "/bin/bash"
此时会进入到容器终端,再运行下列命令
nohup ollama serve &
# 等待10秒左右后运行下面这条命令
ollama run qwq:32b
若不需要GPU环境,可自行删除--gpus=all参数。
域名 docker.cnb.cool 已对腾讯云全局内网加速,无流量费用,不同模型推荐的资源如下:
32b - 32核64G内存 或 16核24G显存32b-fp16 - 16核44G显存基于 DeepSeek 开发 AI 应用,以下方式可用于部署: