invoke-ai
diff --git a/‎invokeai/app/invocations/metadata.py‎
Lines changed: 5 additions & 1 deletion b/‎invokeai/app/invocations/metadata.py‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎invokeai/app/invocations/z_image_denoise.py‎
Lines changed: 16 additions & 14 deletions b/‎invokeai/app/invocations/z_image_denoise.py‎
Lines changed: 16 additions & 14 deletions
diff --git a/‎invokeai/app/invocations/z_image_image_to_latents.py‎
Lines changed: 15 additions & 3 deletions b/‎invokeai/app/invocations/z_image_image_to_latents.py‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎invokeai/app/invocations/z_image_latents_to_image.py‎
Lines changed: 11 additions & 5 deletions b/‎invokeai/app/invocations/z_image_latents_to_image.py‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎invokeai/app/invocations/z_image_lora_loader.py‎
Lines changed: 5 additions & 1 deletion b/‎invokeai/app/invocations/z_image_lora_loader.py‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎invokeai/app/invocations/z_image_text_encoder.py‎
Lines changed: 55 additions & 13 deletions b/‎invokeai/app/invocations/z_image_text_encoder.py‎
Lines changed: 55 additions & 13 deletions
diff --git a/‎invokeai/backend/model_manager/configs/factory.py‎
Lines changed: 9 additions & 1 deletion b/‎invokeai/backend/model_manager/configs/factory.py‎
Lines changed: 9 additions & 1 deletion
@@ -170,7 +170,7 @@ def invoke(self, context: InvocationContext) -> MetadataOutput:
     title="Core Metadata",
     tags=["metadata"],
     category="metadata",
-    version="2.0.0",
+    version="2.1.0",
     classification=Classification.Internal,
 )
 class CoreMetadataInvocation(BaseInvocation):
@@ -221,6 +221,10 @@ class CoreMetadataInvocation(BaseInvocation):
         default=None,
         description="The VAE used for decoding, if the main model's default was not used",
     )
+    qwen3_encoder: Optional[ModelIdentifierField] = InputField(
+        default=None,
+        description="The Qwen3 text encoder model used for Z-Image inference",
+    )
 
     # High resolution fix metadata.
     hrf_enabled: Optional[bool] = InputField(
 
@@ -14,11 +14,9 @@
     Input,
     InputField,
     LatentsField,
-    WithBoard,
-    WithMetadata,
     ZImageConditioningField,
 )
-from invokeai.app.invocations.model import LoRAField, TransformerField
+from invokeai.app.invocations.model import TransformerField
 from invokeai.app.invocations.primitives import LatentsOutput
 from invokeai.app.services.shared.invocation_context import InvocationContext
 from invokeai.backend.model_manager.taxonomy import BaseModelType, ModelFormat
@@ -39,14 +37,11 @@
     title="Denoise - Z-Image",
     tags=["image", "z-image"],
     category="image",
-    version="1.2.0",
+    version="1.1.0",
     classification=Classification.Prototype,
 )
-class ZImageDenoiseInvocation(BaseInvocation, WithMetadata, WithBoard):
-    """Run the denoising process with a Z-Image model.
-
-    Supports regional prompting by connecting multiple conditioning inputs with masks.
-    """
+class ZImageDenoiseInvocation(BaseInvocation):
+    """Run the denoising process with a Z-Image model."""
 
     # If latents is provided, this means we are doing image-to-image.
     latents: Optional[LatentsField] = InputField(
@@ -167,8 +162,10 @@ def _get_noise(
         seed: int,
     ) -> torch.Tensor:
         """Generate initial noise tensor."""
+        # Generate noise as float32 on CPU for maximum compatibility,
+        # then cast to target dtype/device
         rand_device = "cpu"
-        rand_dtype = torch.float16
+        rand_dtype = torch.float32
 
         return torch.randn(
             batch_size,
@@ -224,8 +221,8 @@ def time_shift(mu: float, sigma: float, t: float) -> float:
         return sigmas
 
     def _run_diffusion(self, context: InvocationContext) -> torch.Tensor:
-        inference_dtype = torch.bfloat16
         device = TorchDevice.choose_torch_device()
+        inference_dtype = TorchDevice.choose_bfloat16_safe_dtype(device)
 
         transformer_info = context.models.load(self.transformer.transformer)
 
@@ -324,7 +321,8 @@ def _run_diffusion(self, context: InvocationContext) -> torch.Tensor:
         inpaint_mask = self._prep_inpaint_mask(context, latents)
         inpaint_extension: RectifiedFlowInpaintExtension | None = None
         if inpaint_mask is not None:
-            assert init_latents is not None
+            if init_latents is None:
+                raise ValueError("Initial latents are required when using an inpaint mask (image-to-image inpainting)")
             inpaint_extension = RectifiedFlowInpaintExtension(
                 init_latents=init_latents,
                 inpaint_mask=inpaint_mask,
@@ -352,7 +350,7 @@ def _run_diffusion(self, context: InvocationContext) -> torch.Tensor:
             # Determine if the model is quantized.
             # If the model is quantized, then we need to apply the LoRA weights as sidecar layers. This results in
             # slower inference than direct patching, but is agnostic to the quantization format.
-            if transformer_config.format in [ModelFormat.Diffusers]:
+            if transformer_config.format in [ModelFormat.Diffusers, ModelFormat.Checkpoint]:
                 model_is_quantized = False
             elif transformer_config.format in [ModelFormat.GGUFQuantized]:
                 model_is_quantized = True
@@ -456,6 +454,10 @@ def _lora_iterator(self, context: InvocationContext) -> Iterator[Tuple[ModelPatc
         """Iterate over LoRA models to apply to the transformer."""
         for lora in self.transformer.loras:
             lora_info = context.models.load(lora.lora)
-            assert isinstance(lora_info.model, ModelPatchRaw)
+            if not isinstance(lora_info.model, ModelPatchRaw):
+                raise TypeError(
+                    f"Expected ModelPatchRaw for LoRA '{lora.lora.key}', got {type(lora_info.model).__name__}. "
+                    "The LoRA model may be corrupted or incompatible."
+                )
             yield (lora_info.model, lora.weight)
             del lora_info
@@ -41,10 +41,18 @@ class ZImageImageToLatentsInvocation(BaseInvocation, WithMetadata, WithBoard):
 
     @staticmethod
     def vae_encode(vae_info: LoadedModel, image_tensor: torch.Tensor) -> torch.Tensor:
-        assert isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder))
+        if not isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder)):
+            raise TypeError(
+                f"Expected AutoencoderKL or FluxAutoEncoder for Z-Image VAE, got {type(vae_info.model).__name__}. "
+                "Ensure you are using a compatible VAE model."
+            )
 
         with vae_info.model_on_device() as (_, vae):
-            assert isinstance(vae, (AutoencoderKL, FluxAutoEncoder))
+            if not isinstance(vae, (AutoencoderKL, FluxAutoEncoder)):
+                raise TypeError(
+                    f"Expected AutoencoderKL or FluxAutoEncoder, got {type(vae).__name__}. "
+                    "VAE model type changed unexpectedly after loading."
+                )
 
             vae_dtype = next(iter(vae.parameters())).dtype
             image_tensor = image_tensor.to(device=TorchDevice.choose_torch_device(), dtype=vae_dtype)
@@ -80,7 +88,11 @@ def invoke(self, context: InvocationContext) -> LatentsOutput:
             image_tensor = einops.rearrange(image_tensor, "c h w -> 1 c h w")
 
         vae_info = context.models.load(self.vae.vae)
-        assert isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder))
+        if not isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder)):
+            raise TypeError(
+                f"Expected AutoencoderKL or FluxAutoEncoder for Z-Image VAE, got {type(vae_info.model).__name__}. "
+                "Ensure you are using a compatible VAE model."
+            )
 
         context.util.signal_progress("Running VAE")
         latents = self.vae_encode(vae_info=vae_info, image_tensor=image_tensor)
 
@@ -45,20 +45,26 @@ def invoke(self, context: InvocationContext) -> ImageOutput:
         latents = context.tensors.load(self.latents.latents_name)
 
         vae_info = context.models.load(self.vae.vae)
-        assert isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder))
+        if not isinstance(vae_info.model, (AutoencoderKL, FluxAutoEncoder)):
+            raise TypeError(
+                f"Expected AutoencoderKL or FluxAutoEncoder for Z-Image VAE, got {type(vae_info.model).__name__}. "
+                "Ensure you are using a compatible VAE model."
+            )
 
         is_flux_vae = isinstance(vae_info.model, FluxAutoEncoder)
 
         # FLUX VAE doesn't support seamless, so only apply for AutoencoderKL
         seamless_context = (
-            nullcontext()
-            if is_flux_vae
-            else SeamlessExt.static_patch_model(vae_info.model, self.vae.seamless_axes)
+            nullcontext() if is_flux_vae else SeamlessExt.static_patch_model(vae_info.model, self.vae.seamless_axes)
         )
 
         with seamless_context, vae_info.model_on_device() as (_, vae):
             context.util.signal_progress("Running VAE")
-            assert isinstance(vae, (AutoencoderKL, FluxAutoEncoder))
+            if not isinstance(vae, (AutoencoderKL, FluxAutoEncoder)):
+                raise TypeError(
+                    f"Expected AutoencoderKL or FluxAutoEncoder, got {type(vae).__name__}. "
+                    "VAE model type changed unexpectedly after loading."
+                )
 
             vae_dtype = next(iter(vae.parameters())).dtype
             latents = latents.to(device=TorchDevice.choose_torch_device(), dtype=vae_dtype)
 
@@ -136,7 +136,11 @@ def invoke(self, context: InvocationContext) -> ZImageLoRALoaderOutput:
             if not context.models.exists(lora.lora.key):
                 raise Exception(f"Unknown lora: {lora.lora.key}!")
 
-            assert lora.lora.base is BaseModelType.ZImage
+            if lora.lora.base is not BaseModelType.ZImage:
+                raise ValueError(
+                    f"LoRA '{lora.lora.key}' is for {lora.lora.base.value if lora.lora.base else 'unknown'} models, "
+                    "not Z-Image models. Ensure you are using a Z-Image compatible LoRA."
+                )
 
             added_loras.append(lora.lora.key)
 
 
@@ -79,27 +79,41 @@ def _encode_prompt(self, context: InvocationContext, max_seq_len: int) -> torch.
             (_, tokenizer) = exit_stack.enter_context(tokenizer_info.model_on_device())
 
             # Apply LoRA models to the text encoder
+            lora_dtype = TorchDevice.choose_bfloat16_safe_dtype(device)
             exit_stack.enter_context(
                 LayerPatcher.apply_smart_model_patches(
                     model=text_encoder,
                     patches=self._lora_iterator(context),
                     prefix=Z_IMAGE_LORA_QWEN3_PREFIX,
-                    dtype=torch.bfloat16,
+                    dtype=lora_dtype,
                 )
             )
 
             context.util.signal_progress("Running Qwen3 text encoder")
-            assert isinstance(text_encoder, PreTrainedModel)
-            assert isinstance(tokenizer, PreTrainedTokenizerBase)
+            if not isinstance(text_encoder, PreTrainedModel):
+                raise TypeError(
+                    f"Expected PreTrainedModel for text encoder, got {type(text_encoder).__name__}. "
+                    "The Qwen3 encoder model may be corrupted or incompatible."
+                )
+            if not isinstance(tokenizer, PreTrainedTokenizerBase):
+                raise TypeError(
+                    f"Expected PreTrainedTokenizerBase for tokenizer, got {type(tokenizer).__name__}. "
+                    "The Qwen3 tokenizer may be corrupted or incompatible."
+                )
 
             # Apply chat template similar to diffusers ZImagePipeline
             # The chat template formats the prompt for the Qwen3 model
-            prompt_formatted = tokenizer.apply_chat_template(
-                [{"role": "user", "content": prompt}],
-                tokenize=False,
-                add_generation_prompt=True,
-                enable_thinking=True,
-            )
+            try:
+                prompt_formatted = tokenizer.apply_chat_template(
+                    [{"role": "user", "content": prompt}],
+                    tokenize=False,
+                    add_generation_prompt=True,
+                    enable_thinking=True,
+                )
+            except (AttributeError, TypeError) as e:
+                # Fallback if tokenizer doesn't support apply_chat_template or enable_thinking
+                context.logger.warning(f"Chat template failed ({e}), using raw prompt.")
+                prompt_formatted = prompt
 
             # Tokenize the formatted prompt
             text_inputs = tokenizer(
@@ -113,8 +127,16 @@ def _encode_prompt(self, context: InvocationContext, max_seq_len: int) -> torch.
 
             text_input_ids = text_inputs.input_ids
             attention_mask = text_inputs.attention_mask
-            assert isinstance(text_input_ids, torch.Tensor)
-            assert isinstance(attention_mask, torch.Tensor)
+            if not isinstance(text_input_ids, torch.Tensor):
+                raise TypeError(
+                    f"Expected torch.Tensor for input_ids, got {type(text_input_ids).__name__}. "
+                    "Tokenizer returned unexpected type."
+                )
+            if not isinstance(attention_mask, torch.Tensor):
+                raise TypeError(
+                    f"Expected torch.Tensor for attention_mask, got {type(attention_mask).__name__}. "
+                    "Tokenizer returned unexpected type."
+                )
 
             # Check for truncation
             untruncated_ids = tokenizer(prompt_formatted, padding="longest", return_tensors="pt").input_ids
@@ -135,6 +157,18 @@ def _encode_prompt(self, context: InvocationContext, max_seq_len: int) -> torch.
                 attention_mask=prompt_mask,
                 output_hidden_states=True,
             )
+
+            # Validate hidden_states output
+            if not hasattr(outputs, "hidden_states") or outputs.hidden_states is None:
+                raise RuntimeError(
+                    "Text encoder did not return hidden_states. "
+                    "Ensure output_hidden_states=True is supported by this model."
+                )
+            if len(outputs.hidden_states) < 2:
+                raise RuntimeError(
+                    f"Expected at least 2 hidden states from text encoder, got {len(outputs.hidden_states)}. "
+                    "This may indicate an incompatible model or configuration."
+                )
             prompt_embeds = outputs.hidden_states[-2]
 
             # Z-Image expects a 2D tensor [seq_len, hidden_dim] with only valid tokens
@@ -143,13 +177,21 @@ def _encode_prompt(self, context: InvocationContext, max_seq_len: int) -> torch.
             # Since batch_size=1, we take the first item and filter by mask
             prompt_embeds = prompt_embeds[0][prompt_mask[0]]
 
-        assert isinstance(prompt_embeds, torch.Tensor)
+        if not isinstance(prompt_embeds, torch.Tensor):
+            raise TypeError(
+                f"Expected torch.Tensor for prompt embeddings, got {type(prompt_embeds).__name__}. "
+                "Text encoder returned unexpected type."
+            )
         return prompt_embeds
 
     def _lora_iterator(self, context: InvocationContext) -> Iterator[Tuple[ModelPatchRaw, float]]:
         """Iterate over LoRA models to apply to the Qwen3 text encoder."""
         for lora in self.qwen3_encoder.loras:
             lora_info = context.models.load(lora.lora)
-            assert isinstance(lora_info.model, ModelPatchRaw)
+            if not isinstance(lora_info.model, ModelPatchRaw):
+                raise TypeError(
+                    f"Expected ModelPatchRaw for LoRA '{lora.lora.key}', got {type(lora_info.model).__name__}. "
+                    "The LoRA model may be corrupted or incompatible."
+                )
             yield (lora_info.model, lora.weight)
             del lora_info
@@ -60,6 +60,7 @@
     Main_Checkpoint_SD2_Config,
     Main_Checkpoint_SDXL_Config,
     Main_Checkpoint_SDXLRefiner_Config,
+    Main_Checkpoint_ZImage_Config,
     Main_Diffusers_CogView4_Config,
     Main_Diffusers_SD1_Config,
     Main_Diffusers_SD2_Config,
@@ -71,13 +72,17 @@
     Main_GGUF_ZImage_Config,
     MainModelDefaultSettings,
 )
+from invokeai.backend.model_manager.configs.qwen3_encoder import (
+    Qwen3Encoder_Checkpoint_Config,
+    Qwen3Encoder_GGUF_Config,
+    Qwen3Encoder_Qwen3Encoder_Config,
+)
 from invokeai.backend.model_manager.configs.siglip import SigLIP_Diffusers_Config
 from invokeai.backend.model_manager.configs.spandrel import Spandrel_Checkpoint_Config
 from invokeai.backend.model_manager.configs.t2i_adapter import (
     T2IAdapter_Diffusers_SD1_Config,
     T2IAdapter_Diffusers_SDXL_Config,
 )
-from invokeai.backend.model_manager.configs.qwen3_encoder import Qwen3Encoder_Qwen3Encoder_Config
 from invokeai.backend.model_manager.configs.t5_encoder import T5Encoder_BnBLLMint8_Config, T5Encoder_T5Encoder_Config
 from invokeai.backend.model_manager.configs.textual_inversion import (
     TI_File_SD1_Config,
@@ -150,6 +155,7 @@
         Annotated[Main_Checkpoint_SDXL_Config, Main_Checkpoint_SDXL_Config.get_tag()],
         Annotated[Main_Checkpoint_SDXLRefiner_Config, Main_Checkpoint_SDXLRefiner_Config.get_tag()],
         Annotated[Main_Checkpoint_FLUX_Config, Main_Checkpoint_FLUX_Config.get_tag()],
+        Annotated[Main_Checkpoint_ZImage_Config, Main_Checkpoint_ZImage_Config.get_tag()],
         # Main (Pipeline) - quantized formats
         Annotated[Main_BnBNF4_FLUX_Config, Main_BnBNF4_FLUX_Config.get_tag()],
         Annotated[Main_GGUF_FLUX_Config, Main_GGUF_FLUX_Config.get_tag()],
@@ -194,6 +200,8 @@
         Annotated[T5Encoder_BnBLLMint8_Config, T5Encoder_BnBLLMint8_Config.get_tag()],
         # Qwen3 Encoder
         Annotated[Qwen3Encoder_Qwen3Encoder_Config, Qwen3Encoder_Qwen3Encoder_Config.get_tag()],
+        Annotated[Qwen3Encoder_Checkpoint_Config, Qwen3Encoder_Checkpoint_Config.get_tag()],
+        Annotated[Qwen3Encoder_GGUF_Config, Qwen3Encoder_GGUF_Config.get_tag()],
         # TI - file format
         Annotated[TI_File_SD1_Config, TI_File_SD1_Config.get_tag()],
         Annotated[TI_File_SD2_Config, TI_File_SD2_Config.get_tag()],