logo
0
0
Login
update README.md

badge badge

Run Qwen2.5-Omni via CNB

快速体验 Qwen2.5-Omni,无需等待,零帧起步。

快速体验

在线网页体验 Qwen2.5-Omni:7B

  1. Fork 本仓库到自己的组织下
  2. 选择喜欢的分支,点击 云原生开发 启动远程开发环境
  3. 5~9 秒后,进入远程开发命令行,输入以下命令即可体验
python web_demo.py --flash-attn2

vllm api 环境部署

在终端中执行下面的代码

VLLM_USE_V1=0 vllm serve "/root/Qwen2.5-Omni-7B" --port 8000 --host 0.0.0.0 --served-model-name "Qwen2.5-Omni" --dtype bfloat16 --limit-mm-per-prompt image=4,video=4,audio=4 --enforce-eager --gpu-memory-utilization 0.5 --swap-space 0 --api-key "ghju5565"

配置信息:

--api-key(可自定义修改):设置 API 密钥为 ghju5565

接口地址(系统会提示并生成上述地址)为:https://******.cnb.run/v1

--served-model-name "Qwen2.5-Omni"(可自定义修改):模型名为 Qwen2.5-Omni

其余配置信息:

--limit-mm-per-prompt image=4,video=4,audio=4(可自定义修改):对于每个多模态插件,限制每个提示允许的输入实例数。需要以逗号分隔的项目列表,例如:image=4,video=4,audio=4允许每个提示最多 4 张图像、4 个视频和4个音频。对于每个模式,默认为 1。

--max-model-len 32768:模型支持的最大上下文长度(32K tokens),超过会报错或截断。

--served-model-name "/root/Qwen2.5-Omni-7B"(不可修改):指定要加载的模型路径

--port 8000(可自定义修改):服务监听的端口号

--host 0.0.0.0(不可修改):允许从任意网络接口访问服务

提示显存不足修改以下参数

--enforce-eager(可自定义修改):禁用CUDA图(即设置enforce_eager为True),默认值为False,vLLM会默认使用eager模式和CUDA图的混合模式来执行操作。

--gpu-memory-utilization 0.5(可自定义修改):该参数用于指定模型执行器(model executor)所占用的 GPU 内存比例,取值范围为 0 到 1。例如,设为 0.5 表示允许使用 50% 的 GPU 内存。 默认值:0.9(即 90% GPU 内存)。

--swap-space 0(可自定义修改):用于指定 每个 GPU 对应的 CPU 交换空间大小(单位:GiB)。默认值为4(即4GiB)。例如,设为0,表示不使用CPU交换空间。

测试vllm api 环境部署是否成功

在终端中执行下面的代码

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer ghju5565" \ -d '{ "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": [ {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}}, {"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/cough.wav"}}, {"type": "text", "text": "图片中的文字是什么?音频里的声音是什么?"} ]} ] }'

注意端口号、apikey可能需要修改

修改端口号:http://localhost:{设置的端口号}/v1/chat/completions

修改apikey:-H "Authorization: Bearer {vllm启动服务中--api-key参数设置的密码}"

返回类似如下结果:

{"id":"chatcmpl-c0e46d2991ea4caa8bd37fc4ffdb146e","object":"chat.completion","created":1744471911,"model":"Qwen2.5-Omni","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"图片中的文字是“TONGYI Qwen”。音频里的声音是咳嗽声。","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":150,"total_tokens":170,"completion_tokens":20,"prompt_tokens_details":null},"prompt_logprobs":null}

即为部署成功