vllm dlc upgrade to 0.12 (#5536)

Jyothirmaikottu · web-flow · commit 697eadce25d6 · 2025-12-08T16:58:00.000-08:00
* test vllm sm version upgrade

* test vllm sm version upgrade

* test vllm ec2 v upgrade

* retry v upgrade on vllm ec2

* retry

* retest sm vllm 0.12

* retest ec2 vllm 0.12

* increase time out

* reinstall nvjpeg

* test nccl in container

* test nccl in container

* test nccl in container

* test nccl in container

* test nccl in container

* increase timeout

* rebuild and retest sm  vllm 0.12

* revert toml
diff --git a/test/dlc_tests/ec2/test_efa.py b/test/dlc_tests/ec2/test_efa.py
@@ -1,6 +1,7 @@
 import os
 
 import pytest
+import time
 
 import test.test_utils.ec2 as ec2_utils
 from test.test_utils import (
@@ -38,7 +39,7 @@
 WORKER_CONTAINER_NAME = "worker_container"
 HOSTS_FILE_LOCATION = "/root/hosts"
 
-DEFAULT_EFA_TIMEOUT = 300
+DEFAULT_EFA_TIMEOUT = 1000
 
 EC2_EFA_GPU_INSTANCE_TYPE_AND_REGION = get_efa_ec2_instance_type(
     default="p4d.24xlarge",
diff --git a/test/vllm/ec2/test_artifacts/test_ec2.py b/test/vllm/ec2/test_artifacts/test_ec2.py
@@ -393,7 +393,7 @@ def test_vllm_on_ec2(resources, image_uri):
                 head_conn,
                 f"{EFA_INTEGRATION_TEST_CMD} {HOSTS_FILE_LOCATION} 2",
                 hide=False,
-                timeout=DEFAULT_EFA_TIMEOUT,
+                timeout=1000,
             )
 
             test_results["efa"] = True
diff --git a/vllm/buildspec-sm.yml b/vllm/buildspec-sm.yml
@@ -2,8 +2,8 @@ account_id: &ACCOUNT_ID <set-$ACCOUNT_ID-in-environment>
 prod_account_id: &PROD_ACCOUNT_ID 763104351884
 region: &REGION <set-$REGION-in-environment>
 framework: &FRAMEWORK vllm
-version: &VERSION "0.11.2"
-short_version: &SHORT_VERSION "0.11"
+version: &VERSION "0.12.0"
+short_version: &SHORT_VERSION "0.12"
 arch_type: &ARCH_TYPE x86_64
 autopatch_build: "False"
 
diff --git a/vllm/buildspec.yml b/vllm/buildspec.yml
@@ -2,8 +2,8 @@ account_id: &ACCOUNT_ID <set-$ACCOUNT_ID-in-environment>
 prod_account_id: &PROD_ACCOUNT_ID 763104351884
 region: &REGION <set-$REGION-in-environment>
 framework: &FRAMEWORK vllm
-version: &VERSION "0.11.2"
-short_version: &SHORT_VERSION "0.11"
+version: &VERSION "0.12.0"
+short_version: &SHORT_VERSION "0.12"
 arch_type: &ARCH_TYPE x86_64
 autopatch_build: "False"
 
diff --git a/vllm/x86_64/gpu/Dockerfile b/vllm/x86_64/gpu/Dockerfile
@@ -1,4 +1,4 @@
-FROM docker.io/vllm/vllm-openai:v0.11.2 as base
+FROM docker.io/vllm/vllm-openai:v0.12.0 as base
 ARG PYTHON="python3"
 LABEL maintainer="Amazon AI"
 ARG EFA_VERSION="1.45.1"
@@ -19,7 +19,6 @@ WORKDIR /
 
 COPY deep_learning_container.py /usr/local/bin/deep_learning_container.py
 COPY bash_telemetry.sh /usr/local/bin/bash_telemetry.sh
-COPY install_efa.sh install_efa.sh
 
 RUN chmod +x /usr/local/bin/deep_learning_container.py && \
     chmod +x /usr/local/bin/bash_telemetry.sh && \
@@ -41,12 +40,13 @@ RUN chmod +x /usr/local/bin/deep_learning_container.py && \
     rm -rf /var/lib/apt/lists/* && \
     rm -rf /root/.cache | true
 
-
+COPY install_efa.sh install_efa.sh
 RUN bash install_efa.sh ${EFA_VERSION} && \
-    rm install_efa.sh && \
-    mkdir -p /tmp/nvjpeg \
+    rm install_efa.sh 
+
+RUN mkdir -p /tmp/nvjpeg \
     && cd /tmp/nvjpeg \
-    && wget https://developer.download.nvidia.com/compute/cuda/redist/libnvjpeg/linux-x86_64/libnvjpeg-linux-x86_64-12.4.0.76-archive.tar.xz \
+    && curl -O https://developer.download.nvidia.com/compute/cuda/redist/libnvjpeg/linux-x86_64/libnvjpeg-linux-x86_64-12.4.0.76-archive.tar.xz \
     && tar -xvf libnvjpeg-linux-x86_64-12.4.0.76-archive.tar.xz \
     && rm -rf /usr/local/cuda/targets/x86_64-linux/lib/libnvjpeg* \
     && rm -rf /usr/local/cuda/targets/x86_64-linux/include/nvjpeg.h \
@@ -55,8 +55,8 @@ RUN bash install_efa.sh ${EFA_VERSION} && \
     && rm -rf /tmp/nvjpeg \ 
       # remove cuobjdump and nvdisasm
     && rm -rf /usr/local/cuda/bin/cuobjdump* \ 
-    && rm -rf /usr/local/cuda/bin/nvdisasm*  
-
+    && rm -rf /usr/local/cuda/bin/nvdisasm*  \
+    && apt-get install -y git
 
 # ====================== ec2 =========================================
 FROM base AS vllm-ec2 

Original file line number	Diff line number	Diff line change
`@@ -393,7 +393,7 @@ def test_vllm_on_ec2(resources, image_uri):`
`393`	`393`	`head_conn,`
`394`	`394`	`f"{EFA_INTEGRATION_TEST_CMD} {HOSTS_FILE_LOCATION} 2",`
`395`	`395`	`hide=False,`
`396`		`- timeout=DEFAULT_EFA_TIMEOUT,`
	`396`	`+ timeout=1000,`
`397`	`397`	`)`
`398`	`398`
`399`	`399`	`test_results["efa"] = True`