System Info / 系統信息
vllm
Version: 0.13.0
transformers
Version: 4.55.2
NVIDIA Driver 570.181
CUDA Version: 12.8
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
Version info / 版本信息
v2.3.0
The command used to start Xinference / 用以启动 xinference 的命令
docker run -d
-v /opt/xinference/.xinference:/root/.xinference
-v /opt/xinference/.cache/huggingface:/root/.cache/huggingface
-v /opt/xinference/.cache/modelscope:/root/.cache/modelscope
-p 9997:9997
--ipc=host
--shm-size 64G
-e VLLM_WORKER_MULTIPROC_METHOD=spawn
-e VLLM_LOGGING_LEVEL=DEBUG
-e XINFERENCE_LOG_LEVEL=DEBUG
--gpus all
--name xinference
xprobe/xinference:v2.3.0
xinference-local -H 0.0.0.0
Reproduction / 复现过程
我在 Docker 环境中使用 xprobe/xinference:v2.3.0 部署 Xinference,尝试在单卡 GPU 上启动 qwen3.5-27B,使用 vLLM 引擎。
在 enable_virtual_env=False 时,Xinference 会直接报错:
ValueError: Model qwen3.5 cannot be run on engine vLLM.
因此我改为 enable_virtual_env=True。
此时 Xinference 可以继续往下执行,并为 qwen3.5 创建虚拟环境,但在模型加载前阶段失败,关键报错为:
RuntimeError: operator torchvision::nms does not exist
下面是日志:
xinference-20260316161907.log
Expected behavior / 期待表现
帮忙看看是什么问题
System Info / 系統信息
vllm
Version: 0.13.0
transformers
Version: 4.55.2
NVIDIA Driver 570.181
CUDA Version: 12.8
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
Version info / 版本信息
v2.3.0
The command used to start Xinference / 用以启动 xinference 的命令
docker run -d
-v /opt/xinference/.xinference:/root/.xinference
-v /opt/xinference/.cache/huggingface:/root/.cache/huggingface
-v /opt/xinference/.cache/modelscope:/root/.cache/modelscope
-p 9997:9997
--ipc=host
--shm-size 64G
-e VLLM_WORKER_MULTIPROC_METHOD=spawn
-e VLLM_LOGGING_LEVEL=DEBUG
-e XINFERENCE_LOG_LEVEL=DEBUG
--gpus all
--name xinference
xprobe/xinference:v2.3.0
xinference-local -H 0.0.0.0
Reproduction / 复现过程
我在 Docker 环境中使用 xprobe/xinference:v2.3.0 部署 Xinference,尝试在单卡 GPU 上启动 qwen3.5-27B,使用 vLLM 引擎。
在 enable_virtual_env=False 时,Xinference 会直接报错:
ValueError: Model qwen3.5 cannot be run on engine vLLM.
因此我改为 enable_virtual_env=True。
此时 Xinference 可以继续往下执行,并为 qwen3.5 创建虚拟环境,但在模型加载前阶段失败,关键报错为:
RuntimeError: operator torchvision::nms does not exist
下面是日志:
xinference-20260316161907.log
Expected behavior / 期待表现
帮忙看看是什么问题