defilantech · Defilan · Apr 3, 2026
@@ -52,7 +52,7 @@ spec:
   replicas: 1
 
   # Use llama.cpp with CUDA support
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
 
   # Endpoint configuration (OpenAI-compatible API)
   endpoint:

@@ -25,7 +25,7 @@ metadata:
 spec:
   modelRef: llama-13b-multi-gpu
   replicas: 1
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
   resources:
     gpu: 2              # Request 2 GPUs
     gpuMemory: "16Gi"

@@ -25,7 +25,7 @@ metadata:
 spec:
   modelRef: llama-13b-multi-gpu
   replicas: 1
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
   resources:
     gpu: 2              # Request 2 GPUs
     gpuMemory: "16Gi"

@@ -25,7 +25,7 @@ metadata:
 spec:
   modelRef: llama-13b-multi-gpu
   replicas: 1
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
   resources:
     gpu: 2              # Request 2 GPUs
     gpuMemory: "16Gi"

@@ -49,7 +49,7 @@ spec:
   replicas: 1
 
   # Use CUDA-enabled llama.cpp image
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
 
   resources:
     gpu: 2              # Request 2 GPUs per pod

@@ -41,7 +41,7 @@ spec:
   replicas: 1
 
   # Use CUDA-enabled llama.cpp image
-  image: ghcr.io/ggml-org/llama.cpp:server-cuda
+  image: ghcr.io/ggml-org/llama.cpp:server-cuda13
 
   resources:
     gpu: 4              # Request 4 GPUs per pod

@@ -181,11 +181,11 @@ python3 -m http.server 8080
 ```bash
 # Pull images
 docker pull ghcr.io/defilantech/llmkube:v0.4.9
-docker pull ghcr.io/ggml-org/llama.cpp:server-cuda
+docker pull ghcr.io/ggml-org/llama.cpp:server-cuda13
 
 # Save to tar files
 docker save ghcr.io/defilantech/llmkube:v0.4.9 > llmkube-controller.tar
-docker save ghcr.io/ggml-org/llama.cpp:server-cuda > llama-server-cuda.tar
+docker save ghcr.io/ggml-org/llama.cpp:server-cuda13 > llama-server-cuda.tar
 ```
 
 2. Transfer tar files to the air-gapped environment

@@ -227,7 +227,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "multi-gpu-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 2,
 					},
@@ -296,7 +296,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "quad-gpu-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 				},
 			}
 
@@ -347,7 +347,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "single-gpu-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
 					},
@@ -453,7 +453,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "model-gpu-precedence",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 2, // InferenceService says 2 GPUs
 					},
@@ -565,7 +565,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "toleration-test-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 				},
 			}
 
@@ -621,7 +621,7 @@ var _ = Describe("Multi-GPU Deployment Construction", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "nodeselector-test-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					NodeSelector: map[string]string{
 						"cloud.google.com/gke-nodepool": "gpu-pool",
 						"nvidia.com/gpu.product":        "NVIDIA-L4",
@@ -690,7 +690,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:    "context-size-model",
 					Replicas:    &replicas,
-					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ContextSize: &contextSize,
 				},
 			}
@@ -714,7 +714,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:    "context-size-model",
 					Replicas:    &replicas,
-					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ContextSize: &contextSize,
 				},
 			}
@@ -737,7 +737,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "context-size-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					// ContextSize not specified
 				},
 			}
@@ -760,7 +760,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:    "context-size-model",
 					Replicas:    &replicas,
-					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ContextSize: &contextSize,
 				},
 			}
@@ -783,7 +783,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:    "context-size-model",
 					Replicas:    &replicas,
-					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:       "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ContextSize: &contextSize,
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -849,7 +849,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:      "parallel-slots-model",
 					Replicas:      &replicas,
-					Image:         "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:         "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ParallelSlots: &parallelSlots,
 				},
 			}
@@ -871,7 +871,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "parallel-slots-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 				},
 			}
 
@@ -892,7 +892,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:      "parallel-slots-model",
 					Replicas:      &replicas,
-					Image:         "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:         "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ParallelSlots: &parallelSlots,
 				},
 			}
@@ -949,7 +949,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:       "flash-attn-model",
 					Replicas:       &replicas,
-					Image:          "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:          "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					FlashAttention: &flashAttn,
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -973,7 +973,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "flash-attn-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
 					},
@@ -997,7 +997,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:       "flash-attn-model",
 					Replicas:       &replicas,
-					Image:          "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:          "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					FlashAttention: &flashAttn,
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1093,7 +1093,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "jinja-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Jinja:    &jinja,
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1117,7 +1117,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "jinja-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
 					},
@@ -1141,7 +1141,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "jinja-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Jinja:    &jinja,
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1200,7 +1200,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:   "cache-type-model",
 					Replicas:   &replicas,
-					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					CacheTypeK: "q4_0",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1224,7 +1224,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:   "cache-type-model",
 					Replicas:   &replicas,
-					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					CacheTypeV: "q8_0",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1248,7 +1248,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:   "cache-type-model",
 					Replicas:   &replicas,
-					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:      "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					CacheTypeK: "q4_0",
 					CacheTypeV: "q8_0",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
@@ -1274,7 +1274,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "cache-type-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
 					},
@@ -1333,7 +1333,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef:  "extra-args-model",
 					Replicas:  &replicas,
-					Image:     "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:     "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					ExtraArgs: []string{"--seed", "42", "--batch-size", "2048"},
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
@@ -1358,7 +1358,7 @@ var _ = Describe("Context Size Configuration", func() {
 				Spec: inferencev1alpha1.InferenceServiceSpec{
 					ModelRef: "extra-args-model",
 					Replicas: &replicas,
-					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+					Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 					Resources: &inferencev1alpha1.InferenceResourceRequirements{
 						GPU: 1,
 					},
@@ -1438,7 +1438,7 @@ var _ = Describe("Multi-GPU End-to-End Reconciliation", func() {
 					Spec: inferencev1alpha1.InferenceServiceSpec{
 						ModelRef: multiGPUModelName,
 						Replicas: &replicas,
-						Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda",
+						Image:    "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 						Resources: &inferencev1alpha1.InferenceResourceRequirements{
 							GPU:       2,
 							GPUMemory: "16Gi",

@@ -284,7 +284,7 @@ const (
 
 const (
 	imageLlamaCppServer     = "ghcr.io/ggml-org/llama.cpp:server"
-	imageLlamaCppServerCUDA = "ghcr.io/ggml-org/llama.cpp:server-cuda"
+	imageLlamaCppServerCUDA = "ghcr.io/ggml-org/llama.cpp:server-cuda13"
 	imageLlamaCppServerROCm = "ghcr.io/ggml-org/llama.cpp:server-rocm"
 )
 

@@ -181,7 +181,9 @@ Examples:
 
 	cmd.Flags().StringVar(&opts.cpu, "cpu", "2", "CPU request (e.g., '2' or '2000m')")
 	cmd.Flags().StringVar(&opts.memory, "memory", "4Gi", "Memory request (e.g., '4Gi')")
-	cmd.Flags().StringVar(&opts.image, "image", "", "Custom llama.cpp server image (auto-detected based on --gpu)")
+	cmd.Flags().StringVar(&opts.image, "image", "",
+		"Custom llama.cpp server image. Default: server-cuda13 for GPU, server for CPU.\n"+
+			"Use this to override with an older image (e.g., ghcr.io/ggml-org/llama.cpp:server-cuda for CUDA 12).")
 
 	cmd.Flags().BoolVarP(&opts.wait, "wait", "w", true, "Wait for deployment to be ready")
 	cmd.Flags().DurationVar(&opts.timeout, "timeout", 10*time.Minute, "Timeout for waiting")
@@ -524,7 +526,7 @@ func resolveAcceleratorAndImage(opts *deployOptions) {
 			fmt.Printf("ℹ️  Ensure Metal agent is installed: make install-metal-agent\n")
 		} else {
 			if opts.image == "" {
-				opts.image = "ghcr.io/ggml-org/llama.cpp:server-cuda"
+				opts.image = "ghcr.io/ggml-org/llama.cpp:server-cuda13"
 				fmt.Printf("ℹ️  Auto-detected image: %s\n", opts.image)
 			}
 		}

@@ -54,7 +54,7 @@ func TestBuildInferenceService(t *testing.T) {
 				name:      "gpu-model",
 				namespace: "production",
 				replicas:  2,
-				image:     "ghcr.io/ggml-org/llama.cpp:server-cuda",
+				image:     "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 				cpu:       "4",
 				memory:    "8Gi",
 				gpu:       true,
@@ -70,7 +70,7 @@ func TestBuildInferenceService(t *testing.T) {
 				name:      "gpu-model",
 				namespace: testDefaultNamespace,
 				replicas:  1,
-				image:     "ghcr.io/ggml-org/llama.cpp:server-cuda",
+				image:     "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 				cpu:       "2",
 				memory:    "4Gi",
 				gpu:       true,
@@ -585,7 +585,7 @@ func TestResolveAcceleratorAndImage(t *testing.T) {
 			},
 			wantAccel:  "cuda",
 			wantVendor: defaultGPUVendor,
-			wantImage:  "ghcr.io/ggml-org/llama.cpp:server-cuda",
+			wantImage:  "ghcr.io/ggml-org/llama.cpp:server-cuda13",
 		},
 		{
 			name: "metal with explicit amd vendor is preserved",