通过 Ollama 快速运行 Qwen3 模型,已预置 qwen3:32b-q8_0 和 qwen3:32b-fp16 等模型,支持:
⭐ 如果喜欢本项目,欢迎点个 Star 支持一下!
${image}表示模型名称,需要替换为实际模型名称,例如:qwen3:32b-q8_0或qwen3:32b-fp16
ollama run ${image}
📌 示例:运行 qwen3:32b-q8_0 模型
ollama run qwen3:32b-q8_0
| 模型名称 | 描述 |
|---|---|
qwen3:32b-q8_0 | Qwen3-32B q8_0量化版本 |
qwen3:32b-fp16 | Qwen3-32B fp16高精度版本 |
qwen3:30b-a3b-q8_0 | Qwen3-30B a3b架构(3B激活参数)q8_0量化版本 |
在远程开发环境中,你可以通过以下方式将 Ollama 的服务暴露给公网,从而实现 API 调用:
11434 并设置为公开访问https://******.cnb.run:11434WebIDE url 为 https://cnb-xxx-xxxxxx-001.cnb.space 。可使用 https://cnb-xxx-xxxxxx-001-11434.cnb.run (域名部分加上中划线端口号 -11434)访问Ollama端口启动的服务。
⚠️ 注意:Ollama 默认不提供 API 密钥验证机制,暴露公网存在安全风险。请勿用于生产环境,仅供测试和学习使用。
Qwen3 默认是启用思考模式的,模型会首先生成包含在 <think>...</think> 块中的思考内容,随后给出最终回复。
Qwen3 支持通过软开关指令动态控制其思考行为,实现更灵活的对话控制机制。
| 指令 | 功能描述 | 作用说明 |
|---|---|---|
/think | 启用思考模式 | 允许模型进行推理、分析和生成内容 |
/no_think | 禁用思考模式 | 禁止模型主动思考,仅响应基础交互 |
您可以在以下类型的消息中添加这些指令:
🔄 Qwen3 的软开关是有状态的,这意味着:
📌 示例:修改用户发送的消息,禁用/启用Qwen3模型思考
# 禁用 Qwen3 模型思考 Then, how many r's in blueberries? /no_think # 启用 Qwen3 模型思考 Really? /think
只需在用户消息的末尾添加以下任意一条指令,即可快速控制模型的思考行为:
/think:启用思考模式,让模型进行推理与内容生成/no_think:禁用思考模式,仅进行基础响应或被动交互感谢 Ollama 、 Qwen 、CNB 团队提供的强大工具与模型支持。 如果你有任何问题或建议,欢迎提交 Issue 或 PR 参与共建!