Run Qwen2.5-Omni via CNB

快速体验 Qwen2.5-Omni，无需等待，零帧起步。

快速体验

在线网页体验 Qwen2.5-Omni:7B

Fork 本仓库到自己的组织下
选择喜欢的分支，点击 云原生开发 启动远程开发环境
约 5～9 秒后，进入远程开发命令行，输入以下命令即可体验


python web_demo.py --flash-attn2

vllm api 环境部署

在终端中执行下面的代码


VLLM_USE_V1=0 vllm serve  "/root/Qwen2.5-Omni-7B" --port 8000 --host 0.0.0.0 --served-model-name "Qwen2.5-Omni" --dtype bfloat16 --limit-mm-per-prompt image=4,video=4,audio=4 --enforce-eager --gpu-memory-utilization 0.5 --swap-space 0 --api-key "ghju5565"

配置信息：

--api-key（可自定义修改）：设置 API 密钥为 ghju5565

接口地址（系统会提示并生成上述地址）为：https://******.cnb.run/v1

--served-model-name "Qwen2.5-Omni"（可自定义修改）：模型名为 Qwen2.5-Omni

其余配置信息：

--limit-mm-per-prompt image=4,video=4,audio=4（可自定义修改）：对于每个多模态插件，限制每个提示允许的输入实例数。需要以逗号分隔的项目列表，例如：image=4，video=4,audio=4允许每个提示最多 4 张图像、4 个视频和4个音频。对于每个模式，默认为 1。

--max-model-len 32768：模型支持的最大上下文长度（32K tokens），超过会报错或截断。

--served-model-name "/root/Qwen2.5-Omni-7B"（不可修改）：指定要加载的模型路径

--port 8000（可自定义修改）：服务监听的端口号

--host 0.0.0.0（不可修改）:允许从任意网络接口访问服务

提示显存不足修改以下参数

--enforce-eager（可自定义修改）：禁用CUDA图（即设置enforce_eager为True）,默认值为False，vLLM会默认使用eager模式和CUDA图的混合模式来执行操作。

--gpu-memory-utilization 0.5（可自定义修改）：该参数用于指定模型执行器（model executor）所占用的 GPU 内存比例，取值范围为 0 到 1。例如，设为 0.5 表示允许使用 50% 的 GPU 内存。默认值：0.9（即 90% GPU 内存）。

--swap-space 0（可自定义修改）:用于指定每个 GPU 对应的 CPU 交换空间大小（单位：GiB）。默认值为4（即4GiB）。例如，设为0，表示不使用CPU交换空间。

测试vllm api 环境部署是否成功

在终端中执行下面的代码


curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer ghju5565" \
    -d '{
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
        {"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/cough.wav"}},
        {"type": "text", "text": "图片中的文字是什么？音频里的声音是什么？"}
    ]}
    ]
    }'

注意端口号、apikey可能需要修改

修改端口号：http://localhost:{设置的端口号}/v1/chat/completions

修改apikey：-H "Authorization: Bearer {vllm启动服务中--api-key参数设置的密码}"

返回类似如下结果：


{"id":"chatcmpl-c0e46d2991ea4caa8bd37fc4ffdb146e","object":"chat.completion","created":1744471911,"model":"Qwen2.5-Omni","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"图片中的文字是“TONGYI Qwen”。音频里的声音是咳嗽声。","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":150,"total_tokens":170,"completion_tokens":20,"prompt_tokens_details":null},"prompt_logprobs":null}

即为部署成功

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111