[pre-commit.ci] auto fixes from pre-commit.com hooks

pre-commit-ci[bot] · pre-commit-ci[bot] · commit 0103b53e91fe · 2026-02-23T20:35:40.000Z
for more information, see https://pre-commit.ci
diff --git a/tests/pytorch/distributed/run_fsdp2_fused_adam.py b/tests/pytorch/distributed/run_fsdp2_fused_adam.py
@@ -33,9 +33,7 @@
 def get_recipe_from_string(recipe_name, fp8_format=Format.HYBRID):
     """Convert recipe name to a recipe object."""
     if recipe_name == "delayed_scaling":
-        return DelayedScaling(
-            fp8_format=fp8_format, amax_history_len=16, amax_compute_algo="max"
-        )
+        return DelayedScaling(fp8_format=fp8_format, amax_history_len=16, amax_compute_algo="max")
     elif recipe_name == "current_scaling":
         return Float8CurrentScaling(fp8_format=fp8_format)
     elif recipe_name == "mx_fp8_block_scaling":
@@ -146,9 +144,7 @@ def test_fused_adam_fp8_master_weights(recipe=None):
         master_weight_dtype=torch.float32,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     for step in range(NUM_STEPS):
@@ -162,16 +158,16 @@ def test_fused_adam_fp8_master_weights(recipe=None):
     # Verify optimizer states
     for param in model.parameters():
         state = optimizer.state[param]
-        assert state["exp_avg"].dtype == torch.float32, (
-            f"exp_avg dtype {state['exp_avg'].dtype}, expected float32"
-        )
-        assert state["exp_avg_sq"].dtype == torch.float32, (
-            f"exp_avg_sq dtype {state['exp_avg_sq'].dtype}, expected float32"
-        )
+        assert (
+            state["exp_avg"].dtype == torch.float32
+        ), f"exp_avg dtype {state['exp_avg'].dtype}, expected float32"
+        assert (
+            state["exp_avg_sq"].dtype == torch.float32
+        ), f"exp_avg_sq dtype {state['exp_avg_sq'].dtype}, expected float32"
         if "master_param" in state:
-            assert state["master_param"].dtype == torch.float32, (
-                f"master_param dtype {state['master_param'].dtype}, expected float32"
-            )
+            assert (
+                state["master_param"].dtype == torch.float32
+            ), f"master_param dtype {state['master_param'].dtype}, expected float32"
 
     # Verify FP8 params preserved
     qt_count = sum(
@@ -201,9 +197,7 @@ def test_fused_adam_bf16(recipe=None):
         master_weight_dtype=torch.float32,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     losses = []
@@ -244,9 +238,7 @@ def test_fused_adam_fp8_no_master(recipe=None):
         master_weights=False,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     for step in range(NUM_STEPS):
@@ -291,9 +283,7 @@ def test_fused_adam_bf16_store_param_remainders(recipe=None):
         store_param_remainders=True,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     losses = []
@@ -308,24 +298,24 @@ def test_fused_adam_bf16_store_param_remainders(recipe=None):
 
     # Verify model params are bf16 (required for store_param_remainders)
     for name, param in model.named_parameters():
-        assert param.dtype == torch.bfloat16, (
-            f"{name}: param dtype {param.dtype}, expected bfloat16"
-        )
+        assert (
+            param.dtype == torch.bfloat16
+        ), f"{name}: param dtype {param.dtype}, expected bfloat16"
 
     # Verify optimizer states
     for name, param in model.named_parameters():
         state = optimizer.state[param]
-        assert state["exp_avg"].dtype == torch.float32, (
-            f"{name}: exp_avg dtype {state['exp_avg'].dtype}, expected float32"
-        )
-        assert state["exp_avg_sq"].dtype == torch.float32, (
-            f"{name}: exp_avg_sq dtype {state['exp_avg_sq'].dtype}, expected float32"
-        )
+        assert (
+            state["exp_avg"].dtype == torch.float32
+        ), f"{name}: exp_avg dtype {state['exp_avg'].dtype}, expected float32"
+        assert (
+            state["exp_avg_sq"].dtype == torch.float32
+        ), f"{name}: exp_avg_sq dtype {state['exp_avg_sq'].dtype}, expected float32"
         # store_param_remainders stores master_param as int16 remainder bits
         if "master_param" in state:
-            assert state["master_param"].dtype == torch.int16, (
-                f"{name}: master_param dtype {state['master_param'].dtype}, expected int16"
-            )
+            assert (
+                state["master_param"].dtype == torch.int16
+            ), f"{name}: master_param dtype {state['master_param'].dtype}, expected int16"
 
     # Verify loss decreased (basic sanity)
     assert losses[-1] < losses[0], f"Loss did not decrease: {losses}"
@@ -351,9 +341,7 @@ def test_fuse_wgrad_accumulation(recipe=None):
 
     # Allocate main_grad buffers on the DTensor params
     for param in model.parameters():
-        param.main_grad = torch.zeros(
-            param.shape, dtype=torch.float32, device=param.device
-        )
+        param.main_grad = torch.zeros(param.shape, dtype=torch.float32, device=param.device)
 
     model = _shard_model(model, world_size)
 
@@ -365,9 +353,7 @@ def test_fuse_wgrad_accumulation(recipe=None):
         use_decoupled_grad=True,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     # This is currently failing during backward because the local Float8Tensor
@@ -409,9 +395,7 @@ def test_dcp_save_load(recipe=None):
         master_weight_dtype=torch.float32,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     # Train a few steps to populate optimizer state.
@@ -434,9 +418,7 @@ def test_dcp_save_load(recipe=None):
         # the saved and loaded state_dict. It also means we need to load the state_dict back with
         # `strict=False` to avoid an error on missing entries.
         model_state = model.state_dict()
-        model_state = {
-            k: v for k, v in model_state.items() if not k.endswith("_extra_state")
-        }
+        model_state = {k: v for k, v in model_state.items() if not k.endswith("_extra_state")}
     else:
         model_state = model.state_dict()
 
@@ -479,9 +461,9 @@ def test_dcp_save_load(recipe=None):
 
     # Loss after loading should be comparable to loss before save
     # (not a massive spike indicating corrupted state).
-    assert loss_after_load < loss_before_save * 2.0, (
-        f"Loss spiked after checkpoint load: {loss_after_load} vs {loss_before_save}"
-    )
+    assert (
+        loss_after_load < loss_before_save * 2.0
+    ), f"Loss spiked after checkpoint load: {loss_after_load} vs {loss_before_save}"
 
     # Clean up checkpoint.
     import shutil
@@ -521,9 +503,7 @@ def test_safetensors_fp32_export(recipe=None):
         master_weight_dtype=torch.float32,
     )
 
-    x = torch.randn(
-        SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device
-    )
+    x = torch.randn(SEQ_LEN, BATCH_PER_RANK, HIDDEN_SIZE, dtype=torch.bfloat16, device=device)
     target = torch.randn_like(x)
 
     # Train a few steps.
@@ -560,9 +540,9 @@ def test_safetensors_fp32_export(recipe=None):
         save_file(fp32_state, save_path)
         loaded = load_file(save_path)
 
-        assert len(loaded) == len(fp32_state), (
-            f"Loaded {len(loaded)} tensors, expected {len(fp32_state)}"
-        )
+        assert len(loaded) == len(
+            fp32_state
+        ), f"Loaded {len(loaded)} tensors, expected {len(fp32_state)}"
         for k, v in loaded.items():
             assert v.dtype == torch.float32, f"{k}: expected float32, got {v.dtype}"
 
diff --git a/tests/pytorch/distributed/test_torch_fsdp2.py b/tests/pytorch/distributed/test_torch_fsdp2.py
@@ -75,6 +75,7 @@ def _run_fused_adam_test(test_name, recipe="delayed_scaling"):
 
     result = subprocess.run(test_cmd, env=os.environ, check=True)
 
+
 @pytest.mark.skipif(NUM_PROCS < 2, reason="Requires 2+ GPUs")
 @pytest.mark.skipif(not fp8_available, reason=reason_for_no_fp8)
 @pytest.mark.parametrize("recipe", ("delayed_scaling", "current_scaling", "mx_fp8_block_scaling"))