feat: Upgrade the base image to version 0.17.1 and add support for aarch64 version images (#4726)

zwt-1234 · web-flow · commit ba7167f4feaa · 2026-03-27T14:18:43.000+08:00
diff --git a/.github/workflows/docker-cd.yaml b/.github/workflows/docker-cd.yaml
@@ -64,6 +64,8 @@ jobs:
             docker push "$DOCKER_ORG/xinference:${IMAGE_TAG}"
             docker build -t "$DOCKER_ORG/xinference:${IMAGE_TAG}-cpu" --progress=plain -f xinference/deploy/docker/Dockerfile.cpu .
             docker push "$DOCKER_ORG/xinference:${IMAGE_TAG}-cpu"
+            docker buildx build --platform linux/arm64 --push -t "$DOCKER_ORG/xinference:${IMAGE_TAG}-aarch64" --progress=plain -f xinference/deploy/docker/Dockerfile.aarch64 .
+            docker push "$DOCKER_ORG/xinference:${IMAGE_TAG}-aarch64"
             echo "XINFERENCE_IMAGE_TAG=${IMAGE_TAG}" >> $GITHUB_ENV
           done
           
@@ -72,6 +74,8 @@ jobs:
             docker push "$DOCKER_ORG/xinference:latest"
             docker tag "$DOCKER_ORG/xinference:${GIT_TAG}-cpu" "$DOCKER_ORG/xinference:latest-cpu"
             docker push "$DOCKER_ORG/xinference:latest-cpu"
+            docker tag "$DOCKER_ORG/xinference:${GIT_TAG}-aarch64" "$DOCKER_ORG/xinference:latest-aarch64"
+            docker push "$DOCKER_ORG/xinference:latest-aarch64"
             echo "XINFERENCE_GIT_TAG=${GIT_TAG}" >> $GITHUB_ENV
           fi
 
diff --git a/xinference/deploy/docker/Dockerfile b/xinference/deploy/docker/Dockerfile
@@ -1,4 +1,4 @@
-FROM vllm/vllm-openai:v0.13.0
+FROM vllm/vllm-openai:v0.17.1
 
 COPY . /opt/inference
 WORKDIR /opt/inference
@@ -49,9 +49,9 @@ RUN pip install --upgrade -i "$PIP_INDEX" pip "setuptools<82" wheel && \
     pip install -i "$PIP_INDEX" wetext && \
     pip uninstall flashinfer -y && \
     pip install -i "$PIP_INDEX" flashinfer-python==0.5.3 flashinfer-cubin==0.5.3 && \
-    pip install https://github.com/flashinfer-ai/flashinfer/releases/download/v0.5.3/flashinfer_jit_cache-0.5.3+cu129-cp39-abi3-manylinux_2_28_x86_64.whl && \
     pip install -i "$PIP_INDEX" SQLAlchemy==1.4.54 && \
-    pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.5.4/flash_attn-2.8.3+cu128torch2.9-cp312-cp312-linux_x86_64.whl && \
+    pip install https://github.com/flashinfer-ai/flashinfer/releases/download/v0.5.3/flashinfer_jit_cache-0.5.3+cu129-cp39-abi3-manylinux_2_28_x86_64.whl && \
+    pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.7.12/flash_attn-2.8.3+cu128torch2.10-cp312-cp312-linux_x86_64.whl && \
     cd /opt/inference && \
     python3 setup.py build_web && \
     git restore . && \
diff --git a/xinference/deploy/docker/Dockerfile.aarch64 b/xinference/deploy/docker/Dockerfile.aarch64
@@ -0,0 +1,29 @@
+FROM vllm/vllm-openai:v0.17.1-aarch64
+
+COPY . /opt/inference
+
+WORKDIR /opt/inference
+
+ARG PIP_INDEX=https://pypi.org/simple
+
+RUN apt-get update -y && \
+    pip install --upgrade pip setuptools==79.0.1 wheel && \
+    apt-get install -y wget libpcre3 libpcre3-dev gcc rsync zlib1g zlib1g-dev git libssl-dev && \
+    apt-get clean all && \
+    cd /opt/inference/ && \
+    pip install --upgrade-strategy only-if-needed -r /opt/inference/xinference/deploy/docker/requirements_aarch64/requirements_aarch64.txt && \
+    pip install --no-deps --no-build-isolation "." && \
+    cd /opt/inference && \
+    python3 setup.py build_web && \
+    git restore . && \
+    pip install -i "$PIP_INDEX" --no-deps "." && \
+    pip install -i "$PIP_INDEX" "xllamacpp>=0.2.0" && \
+    pip cache purge
+
+RUN pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128 \
+    --no-deps && \
+    pip install triton && \
+    pip install torchcodec && \
+    pip cache purge
+
+ENTRYPOINT []
diff --git a/xinference/deploy/docker/requirements/requirements-ml.txt b/xinference/deploy/docker/requirements/requirements-ml.txt
@@ -52,4 +52,4 @@ xgrammar>=0.1.10
 cuda-python
 sgl-kernel>=0.0.3.post3,<=0.1.4
 IPython
-numpy==1.26.4
+numpy==2.2.6
diff --git a/xinference/deploy/docker/requirements_aarch64/requirements_aarch64.txt b/xinference/deploy/docker/requirements_aarch64/requirements_aarch64.txt
@@ -0,0 +1,32 @@
+xoscar>=0.7.1
+gradio==4.26.0
+typer[all]<0.12.0  # fix typer required by gradio
+pillow
+click
+tqdm>=4.27
+tabulate
+requests
+pydantic
+fastapi==0.110.3
+uvicorn
+huggingface-hub>=0.19.4
+typing_extensions
+modelscope>=1.10.0
+sse_starlette>=1.6.5  # ensure_bytes API break change: https://github.com/sysid/sse-starlette/issues/65
+openai>=1.40.0  # For typing
+python-jose[cryptography]
+bcrypt>=4.0.0
+aioprometheus[starlette]>=23.12.0
+pynvml
+async-timeout
+peft>=0.17.0
+opencv-contrib-python
+sqlalchemy==1.4.54
+fastapi_pagination
+python-dotenv
+langfuse==3.3.0
+piexif
+aiohttp
+prometheus_client
+psycopg2-binary
+numpy==2.2.6