From 92b8ef36891a15fe6b4e5683bc0cdf00245e287f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 15 Jul 2025 16:34:09 +0800
Subject: [PATCH 001/188] X86 render

test adjustments
---
 test/test_ops_2.py          |  239 ++++++++
 tinygrad/renderer/asm.py    | 1052 +++++++++++++++++++++++++++++++++++
 tinygrad/runtime/ops_asm.py |   20 +
 3 files changed, 1311 insertions(+)
 create mode 100644 test/test_ops_2.py
 create mode 100644 tinygrad/renderer/asm.py
 create mode 100644 tinygrad/runtime/ops_asm.py

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
new file mode 100644
index 0000000000000..328a4f65c1380
--- /dev/null
+++ b/test/test_ops_2.py
@@ -0,0 +1,239 @@
+import time, math, unittest, functools, os
+import numpy as np
+from typing import List, Callable
+import warnings
+from tinygrad.helpers import DISABLE_COMPILER_CACHE, getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, DEVECTORIZE, OSX, Context
+from tinygrad import Tensor, Device, dtypes
+from tinygrad.tensor import _to_np_dtype
+from tinygrad.device import is_dtype_supported
+
+class TestOps(unittest.TestCase):
+  def test_full(self):
+    a = Tensor.full((4, 4), 20, dtype=dtypes.int).contiguous().realize()
+    np.testing.assert_equal(a.numpy(), np.full((4,4), 20))
+  def test_full_int64(self):
+    a = Tensor.full((4, 4), 20, dtype=dtypes.int64).contiguous().realize()
+    np.testing.assert_equal(a.numpy(), np.full((4,4), 20, dtype=np.int64))
+  def test_zeros(self):
+    a = Tensor.zeros(4, 4, dtype=dtypes.int32).contiguous().realize()
+    np.testing.assert_equal(a.numpy(), np.zeros((4,4), dtype=np.int32))
+  def test_full_float32(self):
+    a = Tensor.full((4,4), 20.0, dtype=dtypes.float32).contiguous().numpy()
+    np.testing.assert_equal(a, np.full((4,4), 20.0, dtype=np.float32))
+
+  @unittest.skip("")
+  def test_eye(self):
+    print(Tensor.eye(10).numpy())
+
+  @unittest.skip("")
+  def test_split(self):
+    tensors = Tensor.arange(16).reshape((4,4)).split((2,2))
+    print(tensors[1].numpy())
+
+  @unittest.skip("")
+  def test_chunk(self):
+    t = Tensor.arange(13).repeat((8, 1))
+    print(f"{t.shape=}")
+    ts = t.chunk(6, 1)
+    for _t in ts: print(f"{_t.shape=}")
+    print(ts[0].numpy())
+
+  def test_meshgrid(self):
+    x, y = Tensor([1, 2, 3]), Tensor([4, 5, 6])
+    grid_x, grid_y = x.meshgrid(y)
+    grid_x, grid_y = x.meshgrid(y, indexing="ij")
+    print(grid_x.numpy())
+    #print(grid_y.numpy())
+
+  @unittest.skip("")
+  def test_arange(self):
+    print(Tensor.arange(100).numpy())
+
+  @unittest.skip("")
+  def test_linespace(self):
+    print(Tensor.linspace(5, 10, 3).numpy())
+
+  @unittest.skip("")
+  def test_sum(self):
+    print(Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy())
+
+  @unittest.skip("")
+  def test_where(self):
+    a = Tensor([1, 2, 3])
+    b = (a > 2).where(8, 9)
+    print(b.numpy())
+
+  def test_matmul_int64(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.int64).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.int64).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    print(c.numpy())
+    np.testing.assert_equal(c.numpy(), np.array([
+      [28, 34],
+      [76, 98],
+      [124, 162]
+      ], dtype=np.int64))
+  def test_matmul_int64_noopt(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.int64).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.int64).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    with Context(NOOPT=1):
+      np.testing.assert_equal(c.numpy(), np.array([
+        [28, 34],
+        [76, 98],
+        [124, 162]
+        ], dtype=np.int64))
+  def test_matmul_int32(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.int32).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.int32).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    np.testing.assert_equal(c.numpy(), np.array([
+      [28, 34],
+      [76, 98],
+      [124, 162]
+      ], dtype=np.int32))
+  def test_matmul_int32_noopt(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.int32).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.int32).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      print(f"{a.dtype=} {a.dtype.itemsize=}")
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    with Context(NOOPT=1):
+      np.testing.assert_equal(c.numpy(), np.array([
+        [28, 34],
+        [76, 98],
+        [124, 162]
+        ], dtype=np.int32))
+
+  def test_matmul_f32_noopt(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.float32).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.float32).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    with Context(NOOPT=1):
+      np.testing.assert_equal(c.numpy(), np.array([
+        [28, 34],
+        [76, 98],
+        [124, 162]
+        ], dtype=np.float32))
+
+  def test_matmul_f32(self):
+    with Context(DEBUG=0):
+      a = Tensor.arange(12, device="PYTHON", dtype=dtypes.float32).reshape((3,4)).realize()
+      b = Tensor.arange(8, device="PYTHON", dtype=dtypes.float32).reshape((4,2)).realize()
+      a = a.to(Device.DEFAULT)
+      b = b.to(Device.DEFAULT)
+    c = a.dot(b)
+    with Context(NOOPT=1):
+      np.testing.assert_equal(c.numpy(), np.array([
+        [28, 34],
+        [76, 98],
+        [124, 162]
+        ], dtype=np.float32))
+  def test_matmul_f32_rand(self):
+    np.random.seed(0)
+    a = np.random.rand(3, 4).astype(np.float32)
+    b = np.random.rand(4, 2).astype(np.float32)
+    a_t = Tensor(a)
+    b_t = Tensor(b)
+    np_res = np.matmul(a, b)
+    with Context(NOOPT=1, DEBUG=0):
+      clang_res = a_t.to("cpu").dot(b_t.to("cpu")).numpy()
+    with Context(NOOPT=1):
+      #np.testing.assert_equal(clang_res, np_res)
+      #np.testing.assert_equal(np_res, a_t.to("asm").dot(b_t.to("asm")).numpy())
+      np.testing.assert_allclose(np_res, a_t.to("asm").dot(b_t.to("asm")).numpy())
+
+  @unittest.skipUnless(os.environ.get("MANUAL"), "")
+  def test_matmul_f32_rand_small(self):
+    np.random.seed(0)
+    a = np.random.rand(2, 2).astype(np.float32)
+    np.save("../tg-dev/matmul6/a.npy", a)
+    b = np.random.rand(2, 2).astype(np.float32)
+    np.save("../tg-dev/matmul6/b.npy", b)
+    print(f"{a=}")
+    print(f"{b=}")
+    a_t = Tensor(a)
+    b_t = Tensor(b)
+    np_res = np.matmul(a, b)
+    np.save("../tg-dev/matmul6/np_res.npy", np_res)
+    with Context(NOOPT=1, DEBUG=5, SHOW_DISASM=1,  CLANG_O_LEVEL=0, FFP=0):
+        clang_res = a_t.to("cpu").dot(b_t.to("cpu")).numpy()
+        np.save("../tg-dev/matmul6/clang_res.npy", clang_res)
+    with Context(NOOPT=1):
+      asm_res = a_t.to("asm").dot(b_t.to("asm")).numpy()
+      np.save("../tg-dev/matmul6/asm_res.npy", asm_res)
+      np.testing.assert_equal(clang_res, asm_res)
+
+  @unittest.skipUnless(os.environ.get("MANUAL"), "speed test")
+  def test_matmul_f32_speed(self):
+    """
+    (1024,512) @ (512, 256)
+      atol=1e-04 x86 asm:2.893 clang0:2.606 clang1:0.988 clang2:0.999
+                 arm asm:6.19  clang0:5.08  clang1:0.935 clang2:1.04
+    """
+    with Context(DEBUG=0):
+      np.random.seed(0)
+      a = np.random.rand(1024, 512).astype(np.float32)
+      b = np.random.rand(512, 256).astype(np.float32)
+
+    with Context(NOOPT=1, BEAM=0, FFP=0):
+      with Context(CLANG_O_LEVEL=1, SHOW_DISASM=0):
+        repeats = 10
+        a = Tensor(a)
+        b = Tensor(b)
+        with Context(DEBUG=2):
+          c_cpu = speedrun("clang", a.to("cpu").dot(b.to("cpu")), repeats)
+        with Context(DEBUG=6):
+          c_asm = speedrun("asm", a.to("asm").dot(b.to("asm")), repeats)
+        np.testing.assert_equal(c_asm, c_cpu, )
+
+def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
+  res = c.clone().numpy()
+  t0 = time.time()
+  for i in range(repeat):
+    c.clone().realize()
+  t1 = time.time()
+  print(f"Took {name} {(t1-t0)}s")
+  return res
+    
+@unittest.skipUnless(os.environ.get("MANUAL"), "")
+class TestMatmul(unittest.TestCase):
+  def _setup_data(self, shapeA, shapeB):
+    with Context(DEBUG=0):
+      np.random.seed(0)
+      a = np.random.rand(*shapeA).astype(np.float32)
+      b = np.random.rand(*shapeB).astype(np.float32)
+      return Tensor(a, device="cpu"), Tensor(b, device="cpu")
+
+  def _clang(self, a: Tensor, b: Tensor):
+    with Context(DEBUG=4):
+      c_cpu = a.to("cpu").dot(b.to("cpu")).numpy()
+      return c_cpu
+  def _asm(self, a: Tensor, b: Tensor):
+      with Context(DEBUG=6):
+        c_asm = a.to("asm").dot(b.to("asm")).numpy()
+        return c_asm
+  def test_(self):
+    with Context():
+      K = 32
+      a, b = self._setup_data((3, K), (K, 4))
+      if os.environ.get("MANUAL_CLANG"):
+        clang_res = self._clang(a, b)
+      if os.environ.get("MANUAL_ASM"):
+        asm_res = self._asm(a, b) 
+      #np.testing.assert_equal(clang_res, asm_res)
+
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
new file mode 100644
index 0000000000000..b42f7ffe8e672
--- /dev/null
+++ b/tinygrad/renderer/asm.py
@@ -0,0 +1,1052 @@
+from sqlite3 import Binary
+from typing import List, Dict, Optional, cast
+from tinygrad.uop.ops import UOp, Ops, GroupOp, PatternMatcher, UPat, UPatAny
+from tinygrad.renderer import Renderer
+from tinygrad.helpers import DEBUG 
+from tinygrad import dtypes
+from tinygrad.dtype import DType, PtrDType
+from collections import OrderedDict, defaultdict
+from typing import List, Dict, Optional, cast, Literal, Union, Callable
+import struct, math, unittest, platform, enum
+import platform
+
+class ArchType(enum.Enum):
+  ARM = "aarch64"
+  X86 = "x86_64"
+  @classmethod
+  def from_platform(cls, value: str):
+    candidates = []
+    for member in cls:
+      if value == member.value:
+        candidates.append(member)
+    assert len(candidates) == 1, "Platform type is not unique or not found"
+    return candidates[0]
+
+class _Arch:
+  def __init__(self): self.arch = ArchType.from_platform(platform.machine())
+  @property
+  def arm(self): return self.arch == ArchType.ARM
+  @property
+  def x86(self): return self.arch == ArchType.X86
+Arch = _Arch()
+
+class RegMeta(type):
+  _class_instances: dict[type, dict[int, 'RegBase']] = {}
+  def __call__(cls, id: int):
+    if cls not in RegMeta._class_instances:
+      RegMeta._class_instances[cls] = {}
+    instances = RegMeta._class_instances[cls]
+    if instances.get(id) is None:
+      instance = super().__call__(id)
+      instances[id] = instance
+    return instances[id]
+
+class RegBase(metaclass=RegMeta):
+  size: int # bits
+  def __init__(self, id: int): self.id = id
+  def __repr__(self): return self.render64()
+  def render32(self): raise NotImplementedError()
+  def render64(self): raise NotImplementedError()
+  def render(self, itemsize: int): raise NotImplementedError()
+
+class IReg(RegBase):
+  size = 64
+  def render32(self):
+    if Arch.arm: return f"w{self.id}"
+    else: return ["eax", "ecx", "edx", "ebx", "esp", "ebp", "esi", "edi",
+      "r8d", "r9d", "r10d", "r11d", "r12d", "r13d", "r14d", "r15d"][self.id]
+  def render64(self):
+    if Arch.arm: return f"x{self.id}"
+    else: return ["rax", "rcx", "rdx", "rbx", "rsp", "rbp", "rsi", "rdi",
+      "r8", "r9", "r10", "r11", "r12", "r13", "r14", "r15"][self.id]
+  def render(self, itemsize: int):
+    """
+    itemsize: bytes
+    """
+    if itemsize == 4: return self.render32()
+    if itemsize == 8: return self.render64()
+    raise Exception(f"Either 4 or 8 bytes for register, received {itemsize}")
+
+class FReg(RegBase):
+  size = 128
+  def render32(self):
+    return f"s{self.id}" if Arch.arm else f"xmm{self.id}"
+  def render64(self):
+    return f"d{self.id}" if Arch.arm else f"xmm{self.id}"
+  def render(self, itemsize: int):
+    if itemsize == 4: return self.render32()
+    if itemsize == 8: return self.render64()
+    raise Exception(f"Either 4 or 8 bytes for register, received {itemsize}")
+
+def oneline_uop(u: UOp): return repr(u).split('\n')[0]
+class Variable:
+  def __init__(self, uop: UOp, start: int, end: int):
+    """
+    Args:
+    end:  the index in the linearized uops *after* which the variable is expired
+          start and end are both inclusive. 
+    size: size in bytes (int32: 4, float64: 8)
+    """
+    self.uop, self.start, self.end = uop, start, end
+    self.reg: Optional[RegBase] = None
+    self.stack: Optional[int] = None
+    self.mem: Optional[str] = None
+  
+  @property
+  def name(self): return repr(self.uop)[:100]
+
+  def __repr__(self):
+    location = f" reg:{self.reg}" if self.reg is not None else f" stack:{self.stack}" if self.stack is not None else ""
+    return f"({self.start}-{self.end} reg:{self.reg} stack:{self.stack})"
+
+  def store(self, dst: str) -> list[str]:
+    assert self.reg is not None
+    to_stack = dst == "stack"
+    to_mem = dst == "mem"
+    assert to_stack ^ to_mem
+    assert getattr(self, dst) is not None
+    if to_stack:
+      assert self.stack is not None
+      note = f""
+      if Arch.arm:
+        return [f"str {self.reg.render64()}, [x29, #-{self.stack}]"]
+      else:
+        op = "mov" if dtypes.is_int(self.uop.dtype) or hasattr(self.uop.dtype, "_base") else "movss"
+        return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
+    else:
+      raise Exception("not implemented")
+
+  def load(self, reg: RegBase, src: str) -> list[str]:
+    assert self.reg is None
+    from_stack = src == "stack"
+    from_mem = src == "mem"
+    assert from_stack ^ from_mem
+    self.reg = reg
+    if from_stack:
+      assert self.stack is not None
+      if Arch.arm:
+        return [f"ldr {reg.render64()}, [x29, #-{self.stack}]"]
+      else:
+        op = "mov" if dtypes.is_int(self.uop.dtype) or hasattr(self.uop.dtype, "_base") else "movss"
+        return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
+    else: raise Exception("not implemented")
+
+class Allocator:
+  def __init__(self, num_ireg: int, num_freg: int = 0):
+    self.pool: list[RegBase] = [IReg(i) for i in range(num_ireg-1, -1, -1)]
+    self.pools: dict[type[RegBase], list[RegBase]] = {
+      IReg: [IReg(i) for i in range(num_ireg)],
+      FReg: [FReg(i) for i in range(num_freg)]
+    }
+    self.variables: list[Variable] = []
+    self.stack_size = 0
+    self.uops: dict[UOp, Variable] = {}
+    self.index = 0
+    self.reserved: dict[UOp, int] = {}
+    self.x86_params: dict[int, int] = {
+      0: 7, #R7 (rdi)
+      1: 6, #R6 (rsi)
+      2: 2, #R2 (rdx)
+      3: 1, #R1 (rcx)
+      4: 8, #R8
+      5: 9, #R9 
+    }
+    self.kernel: list[str] = []
+
+  def __getitem__(self, _key: UOp) -> RegBase:
+    return self.assign(_key)
+
+  def flush_kernel(self) -> list[str]:
+    ret = self.kernel
+    self.kernel = []
+    return ret
+
+  def extend_kernel(self, l: list[str]):
+    self.kernel.extend(l)
+
+  def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None) -> tuple[RegBase, list[str]]:
+    if reg_type is not None:
+      pool = self.pools[reg_type]
+      if len(pool):
+        return pool.pop(0), []
+      else:
+        if reg_type is FReg:
+          raise Exception("Not sure how to spill float register yet")
+        vars_in_regs = []
+        for u, var in self.uops.items():
+          if var.reg is not None and u not in excludes and u not in self.reserved:
+            vars_in_regs.append(var)
+        if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
+        sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
+        last_ending_var, *vars = sorted_vars
+        self.move_var_to_stack(last_ending_var)
+        reg = self.pools[reg_type].pop(0)
+        return reg, []
+    else: raise Exception("Dead branch")
+
+  def share(self, dst: UOp, src: UOp):
+    dst_var, src_var = self.uops[dst], self.uops[src]
+    reg = src_var.reg
+    assert reg, f"Source UOp must already been assigned to register {src}"
+    dst_var.reg = src_var.reg
+
+  def return_reg(self, reg: RegBase):
+    self.pools[type(reg)].insert(0, reg)
+
+  def move_var_to_stack(self, v: Variable):
+    reg = v.reg
+    assert reg
+    self.return_reg(reg)
+    assert reg is not None
+    ret = self.save_var_to_stack(v)
+    v.reg = None
+
+  def save_var_to_stack(self, v: Variable):
+    assert v.reg is not None
+    if v.stack is None:
+      self.stack_size += (v.reg.size // 8)
+      v.stack = self.stack_size
+    k = v.store("stack")
+    self.extend_kernel(k)
+
+  def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
+             reg_type: Optional[type[RegBase]]=IReg) -> RegBase:
+    if _key not in self.uops:
+      raise Exception("Attempting to access a non-existent variable, maybe expired?")
+    var = self.uops[_key]
+    if var.reg is not None:
+      return var.reg
+    reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type)
+    if var.stack is not None:
+      self.extend_kernel(var.load(reg, "stack"))
+    if reserve: self.reserved[_key] = 1
+    var.reg = reg
+    assert var.reg is not None
+    return reg
+  def assign_i32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+    return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
+  def assign_i64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+    return self.assign(_key, excludes, reserve, reg_type=IReg).render64()
+  def assign_f32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+    return self.assign(_key, excludes, reserve, reg_type=FReg).render32()
+  def assign_f64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+    return self.assign(_key, excludes, reserve, reg_type=FReg).render64()
+  
+  def release(self, uop: UOp): del self.reserved[uop] 
+
+  def free_expired(self, i: int):
+    expired: list[UOp] = []
+    assigned_regs: dict[RegBase, int] = defaultdict(int)
+    for uop, var in self.uops.items():
+      if var.end < i: expired.append(uop)
+      if var.reg: assigned_regs[var.reg] += 1
+      if var.reg and var.end < i: assigned_regs[var.reg] -= 1
+    for uop in expired:
+      del self.uops[uop]
+      if self.reserved.get(uop): self.release(uop)
+    for reg, count in assigned_regs.items():
+      if count == 0:
+        pool = self.pools[type(reg)]
+        pool.insert(0, reg)
+  
+def stack_all(a: Allocator):
+  for u, var in a.uops.items():
+    # Previously was also checking var.stack and missed updated value
+    if var.reg is not None and u not in a.reserved:
+      a.move_var_to_stack(var)
+
+def float32_to_hex(f: float) -> str:
+  return hex(int.from_bytes(struct.pack('<f', f), 'little'))
+
+class _AluOps:
+  def __init__(self, items: dict[tuple[Union[ArchType, Ops, type[RegBase], int], ...], str]):
+    self._root = {}
+    for (key, value) in items.items():
+      node = self._root
+      for i, part in enumerate(key): node = node.setdefault(part, {})
+      node[None] = value
+    
+  def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -> str:
+    node = self._root
+    best_match = None
+    for i, part in enumerate(key_tuple):
+      if part not in node: break
+      node = node[part]
+      if None in node: best_match = node[None]
+    if best_match is None: raise Exception(f"No match found {key_tuple=}")
+    return best_match
+
+AluOps = _AluOps({
+  (Ops.ADD, ArchType.X86, IReg): "add",
+  (Ops.ADD, ArchType.X86, FReg, 32): "addss",
+  (Ops.ADD, ArchType.X86, FReg, 64): "addsd",
+  (Ops.ADD, ArchType.ARM, IReg): "add",
+  (Ops.ADD, ArchType.ARM, FReg): "fadd",
+  (Ops.MUL, ArchType.X86, IReg): "imul",
+  (Ops.MUL, ArchType.X86, FReg, 32): "mulss",
+  (Ops.MUL, ArchType.X86, FReg, 64): "mulsd",
+  (Ops.MUL, ArchType.ARM, IReg): "mul",
+  (Ops.MUL, ArchType.ARM, FReg): "fmul",
+  (Ops.ASSIGN, ArchType.ARM, IReg): "mov",
+  (Ops.ASSIGN, ArchType.ARM, FReg): "fmov",
+  (Ops.ASSIGN, ArchType.X86, IReg): "mov",
+  (Ops.ASSIGN, ArchType.X86, FReg, 32): "movss",
+  (Ops.ASSIGN, ArchType.X86, FReg, 64): "movsd",
+})
+
+def alu(ctx, x):
+  dtype = x.src[0].dtype
+  reg_type = IReg if dtypes.is_int(dtype) else FReg
+  src0 = ctx.r.assign(x.src[0], reg_type=reg_type)
+  src1 = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
+  dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
+  operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
+  _src0, _src1, _dst = src0.render(dtype.itemsize), src1.render(dtype.itemsize), dst.render(dtype.itemsize)
+  if Arch.arm:
+    return [f"{operator} {_dst}, {_src0}, {_src1};"]
+  else:
+    _mov = "mov" if dtypes.is_int(dtype) else "movss" 
+    return [f"{_mov} {_dst}, {_src0}",
+      f"{operator} {_dst}, {_src1}",]
+
+def acc(ctx, x, acc, src):
+  dtype = x.src[0].dtype
+  _acc = ctx.r.uops[acc].reg.render(dtype.itemsize)
+  _src = ctx.r.uops[src].reg.render(dtype.itemsize)
+  ctx.r.share(x, acc)
+  reg_type = IReg if dtypes.is_int(dtype) else FReg
+  operator = AluOps.get((Ops.ADD, Arch.arch, reg_type, 8*x.dtype.itemsize))
+  if Arch.arm:
+    return [f"{operator} {_acc}, {_acc}, {_src}"]
+  else:
+    return [f"{operator} {_acc}, {_src}"]
+
+def const(ctx, x):
+  reg = ctx.r.assign(x, reg_type=FReg)
+  reg_str = reg.render(x.dtype.itemsize)
+  label = f"const_{len(ctx.mem)}"
+  if Arch.arm:
+    ctx.mem.append((label, f".single {x.arg}"))
+    temp_reg, kernel = ctx.r.alloc([reg], IReg)
+    ctx.r.return_reg(temp_reg)
+    return [f"adrp {temp_reg}, {label}",
+      f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]
+  else:
+    op = "movss" if x.dtype.itemsize == 4 else "movsd"
+    ctx.mem.append((label, f".float {x.arg}"))
+    return [ f"{op} {reg_str}, [rip+{label}]" ]
+
+def _range(ctx, x):
+  stack_all(ctx.r)
+  counter = ctx.r.assign(x, reserve=True, reg_type=IReg).render64()
+  return [
+      f"mov {counter}, #0",
+      f"\n.LOOP_{x.arg}:"
+  ]
+
+def endrange(ctx, x):
+  acc, end = x.src[0], x.src[0].src[0]
+  stack_all(ctx.r)
+  acc_reg = ctx.r.assign_i64(acc)
+  ctx.r.release(x.src[0])
+  if Arch.arm:
+    return [
+      f"add {acc_reg}, {acc_reg}, #1",
+      f"cmp {acc_reg}, #{end.arg}",
+      f"b.lt .LOOP_{acc.arg}"
+    ]
+  else:
+    return [
+      f"inc {acc_reg}",
+      f"cmp {acc_reg}, {end.arg}",
+      f"jl .LOOP_{acc.arg}",
+    ]
+
+def _index(ctx, x):
+  src0, src1 = x.src[0], x.src[1]
+  src0_str = ctx.r.assign(src0, reg_type=IReg).render64()
+  src1_str = ctx.r.assign(src1, excludes=[src0], reg_type=IReg).render64()
+  reg = ctx.r.assign(x, excludes=[src0, src1], reg_type=IReg).render64()
+  multiplier = src0.dtype.itemsize
+  lsl = int(math.log2(multiplier))
+  if Arch.arm:
+    return [ f"add {reg}, {src0_str}, {src1_str}, lsl #{lsl}" ]
+  else:
+    return [
+      f"mov {reg}, {src1_str}",
+      f"shl {reg}, {lsl}",
+      f"add {reg}, {src0_str}",
+    ]
+
+def assign(ctx, x):
+  reg_type = IReg if dtypes.is_int(x.src[0].dtype) else FReg
+  dst = ctx.r.assign(x, reg_type=reg_type)
+  src = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
+  opcode = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
+  ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
+  return [f"{opcode} {dst}, {src}"]
+
+complex_rewrites = PatternMatcher([
+  (UPat(Ops.ASSIGN, name="x"), assign),
+  (UPat(Ops.INDEX, name="x"), _index),
+  (UPat(Ops.RANGE, name="x"), _range),
+  (UPat(Ops.ENDRANGE, name="x"), endrange),
+  (UPat(GroupOp.ALU, name="x"), alu),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
+])
+x86_rewrite = PatternMatcher([
+  (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
+      lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i32(src)}"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
+      lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i64(src)}"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
+      lambda ctx, x, addr, src: [f"movss [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f32(src)}"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
+      lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
+
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=True)}, {ctx.r.assign_i64(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x, reserve=True)}, {ctx.r.assign_f32(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
+
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.float32, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"movsd {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
+]) + complex_rewrites
+
+arm_rewrite = PatternMatcher([
+  (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
+      lambda ctx, x, addr, src: [f"str {ctx.r.assign_i32(src)}, [{ctx.r.assign_i64(addr)}]"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
+      lambda ctx, x, addr, src: [f"str {ctx.r.assign_i64(src)}, [{ctx.r.assign_i64(addr)}]"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
+      lambda ctx, x, addr, src: [f"str {ctx.r.assign_f32(src)}, [{ctx.r.assign_i64(addr)}]"]),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
+      lambda ctx, x, addr, src: [f"str {ctx.r.assign_f64(src)}, [{ctx.r.assign_i64(addr)}]"]),
+
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=True)}, {ctx.r.assign_i64(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"fmov {ctx.r.assign_f32(x, reserve=True)}, {ctx.r.assign_f32(src)}"]),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
+
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"ldr {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"ldr {ctx.r.assign_i64(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.float32, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"ldr {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"ldr {ctx.r.assign_f64(x)}, [{ctx.r.assign_i64(src)}]"]),
+]) + complex_rewrites
+
+extra_matcher = PatternMatcher([
+  (UPat(Ops.ASSIGN, name="assign", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(Ops.ADD, name="add"))), lambda ctx, assign, acc, add: add),
+])
+
+class AsmRenderer(Renderer):
+  supports_float4 = False
+  has_local = False
+  has_shared = False
+  global_max = None
+  extra_matcher = extra_matcher
+
+  def __init__(self) -> None:
+    super().__init__()
+    arch = platform.machine()
+    self.arm = arch == "aarch64"
+    self.x86 = arch == "x86_64"
+    assert self.arm ^ self.x86
+
+  def __getitem__(self, key: UOp):
+    return self.r[key]
+
+  def render(self, uops:List[UOp]) -> str:
+    gen_regs = [f"x{i}" for i in range(0, 31)]
+    float_regs = [f"D{i}" for i in range(0,32)]
+    self.all_regs = gen_regs + float_regs
+    self.r = Allocator(num_ireg=16, num_freg=16)
+    r = self.r
+    mem: list[tuple[str, str]] = [] # ("constant_1", ".float 32.0")
+    self.mem = mem
+    stack_size: int = 16
+    arg_stack_offset: int = 16
+    kernel: List[str] = []
+    self.uops = uops
+    last_use: Dict[UOp, int] = {var:i for i,u in enumerate(uops) for var in (v for v in (u,) + u.src if v.dtype != dtypes.void)}
+    if DEBUG >= 6:
+      print(uops[-1])
+
+    name = "test"
+    uop_order = {} 
+    var_intervals: dict[UOp, Variable] = OrderedDict()
+    for i, u in enumerate(uops):
+      #if u.dtype is not dtypes.void:
+      var = Variable(u, i, -1)
+      if u.op is Ops.DEFINE_GLOBAL:
+        if Arch.arm:
+          var.reg = r.pools[IReg].pop(0)
+        else:
+          reg_num = r.x86_params[u.arg]
+          reg_idx = r.pools[IReg].index(IReg(reg_num))
+          assert reg_idx > -1
+          var.reg = r.pools[IReg].pop(reg_idx)
+      var_intervals[u] = var
+    for i, u in enumerate(uops):
+      for src in u.src:
+        if src.dtype is not dtypes.void:
+          prev = var_intervals[src].end
+          var_intervals[src].end = max(prev, i)
+    for v in var_intervals.values():
+      if v.end == -1: v.end = len(uops)
+    self.r.uops = var_intervals
+    if Arch.x86:
+      r.pools[IReg].pop(r.pools[IReg].index(IReg(5)))
+
+    if DEBUG.value >= 6:
+      for _u, v in r.uops.items(): print(v, oneline_uop(_u))
+    for i,u in enumerate(uops):
+      if DEBUG.value >= 6:
+        print("=================================")
+        print(i, r.uops[u], u)
+      r.free_expired(i)
+      if u.op is Ops.DEFINE_GLOBAL:
+        self.r.move_var_to_stack(r.uops[u])
+        kernel.extend(self.r.flush_kernel())
+      elif u.op is Ops.SINK:
+        if u.arg is not None: name = u.arg.function_name
+      else:
+        rewriter = arm_rewrite if Arch.arm else x86_rewrite
+        if (l:=rewriter.rewrite(u, ctx=self)) is None:
+          raise RuntimeError(f"failed to render {u.op} with {u.dtype} srcs {[x.dtype for x in u.src]}")
+        l = cast(list[str], l)
+        l = [*r.flush_kernel(), *l]
+        if DEBUG.value >= 6:
+          print("\n".join(kernel)[-100:])
+          print("\033[32m", "\n".join(l), "\033[0m", sep="")
+        kernel.extend(l)
+    prologue = [
+      "stp x29, x30, [sp, #-16]!",
+      "mov x29, sp",
+      "mov x30, sp",
+      f"sub sp, sp, #{r.stack_size}",
+    ] if self.arm else [
+      "push rbp",
+      "mov rbp, rsp",
+      f"sub rsp, {r.stack_size}",
+    ]
+    epilogue = [
+      f"mov sp, x29;",
+      f"ldp x29, x30, [sp], #16;",
+      f"ret",
+    ] if self.arm else [
+      "mov rsp, rbp",
+      "pop rbp",
+      "ret",
+    ]
+    mem_data = [f"{a}: {b}" for a,b in mem]
+    data_section = [
+      ".section .data",
+      ".p2align 2",
+      *mem_data
+    ]
+    kernel = [
+      *prologue,
+      *kernel,
+      *epilogue,
+      "",
+      *data_section
+    ]
+    _kernel: str = "\n".join(kernel)
+    ret = f"""
+.text
+{'.intel_syntax noprefix' if self.x86 else ''}
+.global {name}
+{name}:
+{_kernel}
+    """
+    with open("../tg-dev/matmul6/kernel.s", "wt") as f: f.write(ret)
+    return ret
+
+class Tests(unittest.TestCase):
+  def test_to_hex(self):
+    assert float32_to_hex(20.0) == "0x41a00000"
+    assert float32_to_hex(49.193) == "0x4244c5a2"
+
+class TestAllocatorExpire(unittest.TestCase):
+  def setUp(self):
+    self.a = Allocator(16)
+    uop1 = UOp(Ops.CONST, arg=1)
+    uop2 = UOp(Ops.CONST, arg=2)
+    self.uop1, self.uop2 = uop1, uop2
+    self.a.uops[uop1] = Variable(uop1, 0, 2)
+    self.a.uops[uop2] = Variable(uop2, 0, 10)
+    self.a.assign(uop1, reserve=True)
+    self.a.assign(uop2, reserve=True)
+    assert len(self.a.uops) == 2
+    assert len(self.a.reserved) == 2
+  def tearDown(self): del self.a, self.uop1, self.uop2
+
+  def test_expired_uop_none(self):
+    assert len(self.a.pools[IReg]) == 14
+    self.a.free_expired(2)
+    assert len(self.a.uops) == 2 and len(self.a.reserved) == 2
+    assert len(self.a.pools[IReg]) == 14
+
+  def test_expired_uop_one(self):
+    self.a.free_expired(3)
+    assert len(self.a.uops) == 1 and len(self.a.reserved) == 1
+    assert len(self.a.pools[IReg]) == 15
+
+  def test_expired_uop_non(self):
+    self.a.free_expired(11)
+    assert len(self.a.uops) == 0 and len(self.a.reserved) == 0
+    assert len(self.a.pools[IReg]) == 16
+
+  def test_expire_reg_none(self):
+    self.a.uops[self.uop1].reg = None
+    self.a.free_expired(3)
+    assert len(self.a.pools[IReg]) == 14
+
+class TestAllocatorShare(unittest.TestCase):
+  def setUp(self):
+    self.a = Allocator(16)
+    uop1 = UOp(Ops.CONST, arg=1)
+    uop2 = UOp(Ops.CONST, arg=2)
+    self.uop1, self.uop2 = uop1, uop2
+    self.var1, self.var2 = Variable(uop1, 0, 2), Variable(uop2, 0, 10)
+    self.a.uops[uop1] = self.var1
+    self.a.uops[uop2] = self.var2
+    self.a.assign(uop1, reserve=True)
+    self.a.share(uop2, uop1)
+    
+  def test_share_regs(self):
+    assert self.var1.reg == self.var2.reg
+
+  def test_expire_one(self):
+    self.a.free_expired(5)
+    assert self.a.uops.get(self.uop1) is None
+    assert self.var2.reg is not None
+    assert IReg(0) not in self.a.pools[IReg]
+
+  def test_expire_both(self):
+    self.a.free_expired(11)
+    assert IReg(0) in self.a.pools[IReg]
+
+class TestAllocatorSpill(unittest.TestCase):
+  def setUp(self):
+    self.a = Allocator(2)
+    uop1 = UOp(Ops.CONST, arg=1)
+    uop2 = UOp(Ops.CONST, arg=2)
+    uop3 = UOp(Ops.CONST, arg=3)
+    self.uop1, self.uop2, self.uop3 = uop1, uop2, uop3
+    self.a.uops[uop1] = Variable(uop1, 0, 9)
+    self.a.uops[uop2] = Variable(uop2, 0, 10)
+    self.a.uops[uop3] = Variable(uop3, 0, 11)
+    self.a.assign(uop1)
+    self.a.assign(uop2)
+  def tearDown(self): del self.uop1, self.uop2, self.uop3, self.a
+
+  def test_spill(self):
+    reg = self.a.assign(self.uop3)
+    kernel = self.a.flush_kernel()
+    assert reg == IReg(1)
+    assert self.a.uops[self.uop1].reg   is not None
+    assert self.a.uops[self.uop1].stack is None
+
+    assert self.a.uops[self.uop2].reg   is None
+    assert self.a.uops[self.uop2].stack is not None
+
+    assert self.a.uops[self.uop3].reg   is not None
+    assert self.a.uops[self.uop3].stack is None
+    assert len(kernel) == 1# and kernel[0].startswith("str")
+
+  def test_spill_with_stack_load(self):
+    self.a.uops[self.uop2].stack = 0
+    self.a.uops[self.uop3].stack = 8
+    self.a.stack_size = 16
+    reg = self.a.assign(self.uop3)
+    kernel = self.a.flush_kernel()
+    assert self.a.uops[self.uop2].stack == 0
+    assert self.a.uops[self.uop3].stack == 8
+    assert len(kernel) == 2# and kernel[1].startswith("ldr")
+    assert self.a.stack_size == 16
+
+  def test_spill_with_stack_str(self):
+    assert self.a.stack_size == 0
+    self.a.assign(self.uop3)
+    assert self.a.stack_size == 8
+    assert self.a.uops[self.uop2].stack == 8
+
+class TestAllocatorStackAll(unittest.TestCase):
+  """
+  Ops.RANGE and Ops.DEFINE_REG's Variable could change, the change need to 
+  be saved in stack
+  """
+  def setUp(self):
+    self.a = Allocator(16)
+    uop1 = UOp(Ops.RANGE)
+    self.uop1 = uop1
+    var = Variable(uop1, 0, 10)
+    var.stack = 4
+    self.a.uops[uop1] = var
+    self.a.assign(uop1)
+    self.a.flush_kernel()
+  def tearDown(self): del self.a
+
+  def test_update_stack(self):
+    stack_all(self.a)
+    kernel = self.a.flush_kernel()
+    assert len(kernel) == 1
+
+class TestAllocatorExcludeReserve(unittest.TestCase):
+  def _setup(self):
+    assert self.a
+    self.uop1 = UOp(Ops.CONST, arg=1)
+    self.var1 = Variable(self.uop1, 0, 10)
+    self.uop2 = UOp(Ops.CONST, arg=2)
+    self.var2 = Variable(self.uop2, 0, 11)
+    self.uop3 = UOp(Ops.CONST, arg=3)
+    self.var3 = Variable(self.uop3, 0, 12)
+    self.uop4 = UOp(Ops.CONST, arg=4)
+    self.var4 = Variable(self.uop4, 0, 12)
+    self.a.uops[self.uop1] = self.var1
+    self.a.uops[self.uop2] = self.var2
+    self.a.uops[self.uop3] = self.var3
+    self.a.uops[self.uop4] = self.var4
+  def test_exclude(self):
+    self.a = Allocator(2)
+    self._setup()
+    self.a.assign(self.uop1)
+    self.a.assign(self.uop2)
+    self.a.assign(self.uop3, excludes=[self.uop2])
+    assert self.var1.reg is None and self.var1.stack == 8
+    assert self.var2.reg == IReg(1)
+    assert self.var3.reg == IReg(0)
+  def test_exclude_not_enough_reg(self):
+    self.a = Allocator(1)
+    self._setup()
+    self.a.assign(self.uop2)
+    self.a.assign(self.uop3)
+  def test_exclude_not_enough_reg_raise(self):
+    self.a = Allocator(1)
+    self._setup()
+    self.a.assign(self.uop2)
+    with self.assertRaises(Exception):
+      self.a.assign(self.uop3, excludes=[self.uop2])
+  def test_reserve(self):
+    self.a = Allocator(2)
+    self._setup()
+    self.a.assign(self.uop1)
+    self.a.assign(self.uop2, reserve=True)
+    self.a.assign(self.uop3)
+    assert self.var3.reg == IReg(0)
+  def test_reserve_not_enough_reg(self):
+    self.a = Allocator(2)
+    self._setup()
+    self.a.assign(self.uop1, reserve=True)
+    self.a.assign(self.uop2, reserve=True)
+    with self.assertRaises(Exception):
+      self.a.assign(self.uop3)
+  def test_reserve_release(self):
+    self.a = Allocator(2)
+    self._setup()
+    self.a.assign(self.uop1, reserve=True)
+    self.a.assign(self.uop2, reserve=True)
+    self.a.release(self.uop2)
+    self.a.assign(self.uop3)
+  def test_reserve_not_enough_reg_pair(self):
+    self.a = Allocator(3)
+    self._setup()
+    self.a.assign(self.uop1, reserve=True)
+    self.a.assign(self.uop2, reserve=True)
+    with self.assertRaises(Exception):
+      self.a.assign(self.uop3)
+      self.a.assign(self.uop4, excludes=[self.uop3])
+
+class TestReg(unittest.TestCase):
+  def test_singleton(self):
+    assert IReg(3) is IReg(3)
+    assert IReg(3) == IReg(3)
+    assert IReg(3) != IReg(4)
+    assert IReg(3) is not FReg(3)
+    assert FReg(3) is not FReg(4)
+    assert FReg(3) is FReg(3)
+
+class TestAluOpsStr(unittest.TestCase):
+  def test_alu_ops(self):
+    assert AluOps.get((Ops.ADD, ArchType.X86, IReg)) == "add"
+    assert AluOps.get((Ops.ADD, ArchType.X86, IReg, 32)) == "add"
+    assert AluOps.get((Ops.MUL, ArchType.ARM, FReg)) == "fmul"
+    assert AluOps.get((Ops.MUL, ArchType.ARM, FReg, 64)) == "fmul"
+    assert AluOps.get((Ops.ASSIGN, ArchType.X86, FReg, 64)) == "movsd"
+    with self.assertRaises(Exception):
+      AluOps.get((ArchType.X86, Ops.ADD))
+    with self.assertRaises(Exception):
+      AluOps.get((ArchType.ARM, FReg, Ops.MUL, 64))
+    with self.assertRaises(Exception):
+      AluOps.get((ArchType.X86, FReg))
+
+def arch_decorator(arch: ArchType):
+  def decorator(func):
+    def wrapper(self, *args, **kwargs):
+      original_arch = Arch.arch
+      Arch.arch = arch
+      try:
+        func(self, *args, **kwargs)
+      finally:
+        Arch.arch = original_arch
+    return wrapper
+  return decorator
+arm = arch_decorator(ArchType.ARM)
+x86 = arch_decorator(ArchType.X86)
+
+def linearize(u: UOp):
+  visited, queue, result = set(), [u], []
+  while queue:
+    node = queue.pop(0)
+    if node in visited: continue
+    visited.add(node)
+    result.append(node)
+    for child in node.src:
+      if child not in visited:
+        queue.append(child)
+  result.reverse()
+  return result
+
+class TestRender(unittest.TestCase):
+  def setUp(self):
+    self.r = Allocator(16, 16)
+    self.mem = []
+
+  def render(self, uop: UOp, rendered: list[str]):
+    uops = linearize(uop)
+    for u in uops: self.r.uops[u] = Variable(u, 0, 100)
+    k = self.r.flush_kernel()
+    rewriter = arm_rewrite if Arch.arm else x86_rewrite
+    l = rewriter.rewrite(uop, ctx=self)
+    l = cast(list[str], l)
+    assert l is not None
+    assert [*k, *l] == rendered
+
+  def _const(self, dtype: DType, value: Union[int, float], rendered: list[str]):
+    a = UOp(Ops.CONST, dtype, arg=value)
+    self.render(a, rendered)
+
+  @x86
+  def test_x86_const_int32(self): self._const(dtypes.int, 1, ["mov eax, 0x1"])
+  @arm
+  def test_arm_const_int32(self): self._const(dtypes.int, 1, ["mov w0, #1"])
+  @x86
+  def test_x86_const_int64(self): self._const(dtypes.int64, 1, ["mov rax, 0x1"])
+  @arm
+  def test_arm_const_int64(self): self._const(dtypes.int64, 1, ["mov x0, #1"])
+  @x86
+  def test_x86_const_float_scalar_32(self): self._const(dtypes.float, 1.0,
+    ["movss xmm0, [rip+const_0]"])
+  @arm
+  def test_arm_const_float_scalar_32(self): self._const(dtypes.float, 1.0,
+    ["adrp x0, const_0", "ldr s0, [x0, #:lo12:const_0]"])
+
+  def render_store(self, dtype: DType, rendered: list[str]):
+    a = UOp(Ops.STORE, dtypes.void, arg=None, src=(
+      UOp(Ops.INDEX, dtypes.int.ptr(16), arg=None, src=(
+	UOp(Ops.DEFINE_GLOBAL, dtype.ptr(16), arg=0, src=()),
+	UOp(Ops.CONST, dtypes.int, arg=1, src=()),)),
+      UOp(Ops.CONST, dtype, arg=20, src=()),))
+    self.render(a, rendered)
+
+  @x86
+  def test_x86_store_int32(self):
+    self.render_store(dtypes.int32, ["mov [rax], ecx"])
+  @x86
+  def test_x86_store_int64(self):
+    self.render_store(dtypes.int64, ["mov [rax], rcx"])
+  @x86
+  def test_x86_store_float32(self):
+    self.render_store(dtypes.float32, ["movss [rax], xmm0"])
+  @arm
+  def test_arm_store_int32(self):
+    self.render_store(dtypes.int32, ["str w0, [x1]"])
+  @arm
+  def test_arm_store_int64(self):
+    self.render_store(dtypes.int64, ["str x0, [x1]"])
+  @arm
+  def test_arm_store_float64(self):
+    self.render_store(dtypes.float64, ["str d0, [x0]"])
+
+  def _load(self, dtype: DType, rendered: list[str]):
+    a = UOp(Ops.LOAD, dtype, arg=None, src=(
+      UOp(Ops.INDEX, dtype.ptr(12), arg=None, src=(
+	UOp(Ops.DEFINE_GLOBAL, dtype.ptr(12), arg=1, src=()),
+	UOp(Ops.CONST, dtype, arg=None, src=()),)),))
+    self.render(a, rendered)
+
+  @x86
+  def test_x86_load_int32(self):
+    self._load(dtypes.int32, ["mov eax, [rcx]"])
+  @x86
+  def test_x86_load_int64(self):
+    self._load(dtypes.int64, ["mov rax, [rcx]"])
+  @x86
+  def test_x86_load_float32(self):
+    self._load(dtypes.float32, ["movss xmm0, [rax]"])
+  @x86
+  def test_x86_load_float64(self):
+    self._load(dtypes.float64, ["movsd xmm0, [rax]"])
+  @arm
+  def test_arm_load_int32(self):
+    self._load(dtypes.int32, ["ldr w0, [x1]"])
+  @arm
+  def test_arm_load_int64(self):
+    self._load(dtypes.int64, ["ldr x0, [x1]"])
+  @arm
+  def test_arm_load_float32(self):
+    self._load(dtypes.float32, ["ldr s0, [x0]"])
+  @arm
+  def test_arm_load_float64(self):
+    self._load(dtypes.float64, ["ldr d0, [x0]"])
+
+  def _define_acc(self, dtype: DType, rendered: list[str]):
+    a = UOp(Ops.DEFINE_REG, dtype, arg=(0,), src=(
+      UOp(Ops.CONST, dtype, arg=0, src=()),
+      UOp(Ops.RANGE, dtype, arg=2, src=(
+	UOp(Ops.CONST, dtype, arg=4, src=()),)),))
+    self.render(a, rendered)
+  @x86
+  def test_x86_define_acc_int32(self):
+    self._define_acc(dtypes.int32, ["mov eax, ecx"])
+  @x86
+  def test_x86_define_acc_int64(self):
+    self._define_acc(dtypes.int64, ["mov rax, rcx"])
+  @x86
+  def test_x86_define_acc_float32(self):
+    self._define_acc(dtypes.float32, ["movss xmm0, xmm1"])
+  @x86
+  def test_x86_define_acc_float64(self):
+    self._define_acc(dtypes.float64, ["movsd xmm0, xmm1"])
+  @arm
+  def test_arm_define_acc_int32(self):
+    self._define_acc(dtypes.int32, ["mov w0, w1"])
+  @arm
+  def test_arm_define_acc_int64(self):
+    self._define_acc(dtypes.int64, ["mov x0, x1"])
+  @arm
+  def test_arm_define_acc_float32(self):
+    self._define_acc(dtypes.float32, ["fmov s0, s1"])
+  @arm
+  def test_arm_define_acc_float64(self):
+    self._define_acc(dtypes.float64, ["fmov d0, d1"])
+
+  def _assign(self, dtype: DType, rendered: list[str]):
+    a = UOp(Ops.ASSIGN, dtype, arg=None, src=(
+      UOp(Ops.DEFINE_REG, dtype, arg=(0,), src=(
+        UOp(Ops.CONST, dtype, arg=0, src=()),
+        UOp(Ops.RANGE, dtype, arg=2, src=(
+          UOp(Ops.CONST, dtype, arg=4, src=()),
+        ))
+      )),
+      UOp(Ops.CONST, dtype, arg=123, src=()),))
+    self.render(a, rendered)
+
+  @x86
+  def test_x86_assign_int32(self):
+    self._assign(dtypes.int32, [
+      "mov rax, rcx",
+    ])
+  
+  @x86
+  def test_x86_assign_int64(self):
+    self._assign(dtypes.int64, [
+      "mov rax, rcx",
+    ])
+  
+  @x86
+  def test_x86_assign_float32(self):
+    self._assign(dtypes.float32, [
+      "movss xmm0, xmm1",
+    ])
+  
+  @x86
+  def test_x86_assign_float64(self):
+    self._assign(dtypes.float64, [
+      "movsd xmm0, xmm1",
+    ])
+  
+  @arm
+  def test_arm_assign_int32(self):
+    self._assign(dtypes.int32, [
+      "mov x0, x1",
+    ])
+  
+  @arm
+  def test_arm_assign_int64(self):
+    self._assign(dtypes.int64, [
+      "mov x0, x1",
+    ])
+  
+  @arm
+  def test_arm_assign_float32(self):
+    self._assign(dtypes.float32, [
+      "fmov d0, d1",
+    ])
+  
+  @arm
+  def test_arm_assign_float64(self):
+    self._assign(dtypes.float64, [
+      "fmov d0, d1",
+    ])
+
+  @x86
+  def test_x86_range(self):
+    a = UOp(Ops.RANGE, arg=0, src=(
+      UOp(Ops.CONST, arg=4),
+    ))
+    self.render(a, ["mov rax, #0", "\n.LOOP_0:"])
+    b = UOp(Ops.ENDRANGE, src=(
+      a,
+    ))
+    self.render(b, ["inc rcx", "cmp rcx, 4", "jl .LOOP_0"])
+  @arm
+  def test_arm_range(self):
+    a = UOp(Ops.RANGE, arg=0, src=(
+      UOp(Ops.CONST, arg=4),
+    ))
+    self.render(a, ["mov x0, #0", "\n.LOOP_0:"])
+    b = UOp(Ops.ENDRANGE, src=(
+      a,
+    ))
+    self.render(b, ["add x1, x1, #1", "cmp x1, #4", "b.lt .LOOP_0"])
+  @x86
+  def test_x86_index(self):
+    a = UOp(Ops.INDEX, dtypes.int.ptr(16), arg=None, src=(
+      x2:=UOp(Ops.DEFINE_GLOBAL, dtypes.int.ptr(16), arg=0, src=()),
+      x3:=UOp(Ops.CONST, dtypes.int, arg=None, src=()),))
+    self.render(a, ["mov rdx, rcx",
+                    "shl rdx, 2",
+                    "add rdx, rax"])
+  @arm
+  def test_arm_index(self):
+    a = UOp(Ops.INDEX, dtypes.int.ptr(16), arg=None, src=(
+      x2:=UOp(Ops.DEFINE_GLOBAL, dtypes.int.ptr(16), arg=0, src=()),
+      x3:=UOp(Ops.CONST, dtypes.int, arg=None, src=()),))
+    self.render(a, ["add x2, x0, x1, lsl #2"]);
+
diff --git a/tinygrad/runtime/ops_asm.py b/tinygrad/runtime/ops_asm.py
new file mode 100644
index 0000000000000..48a4e23cb04d1
--- /dev/null
+++ b/tinygrad/runtime/ops_asm.py
@@ -0,0 +1,20 @@
+from tinygrad.device import Compiled, MallocAllocator, Compiler
+from tinygrad.runtime.ops_cpu import ClangJITCompiler, CPUProgram, jit_loader
+from tinygrad.renderer.asm import AsmRenderer
+import subprocess
+
+class AsmJITCompiler(Compiler):
+  def __init__(self, cachekey=None): super().__init__(cachekey)
+
+  def compile(self, src:str) -> bytes:
+    obj = subprocess.check_output(['clang', '-x', 'assembler', '-c', '-', '-o', '-'], input=src.encode('utf-8'))
+    #disassembled = subprocess.check_output(["objdump", "-d", "/dev/stdin"], input=obj)
+    #print(disassembled.decode())
+    return jit_loader(obj)
+
+  def disassemble(self, lib:bytes): pass
+
+class AsmDevice(Compiled):
+  def __init__(self, device:str):
+    super().__init__(device, MallocAllocator, AsmRenderer(),
+                      AsmJITCompiler(cachekey=None), CPUProgram)

From dc3aefa9269ffba82683635738a5fcfb5c1495f7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 09:32:42 +0800
Subject: [PATCH 002/188] CPUProgram patch for ARM termux device

---
 tinygrad/device.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/tinygrad/device.py b/tinygrad/device.py
index ab37802889701..e32bfbf5aa00c 100644
--- a/tinygrad/device.py
+++ b/tinygrad/device.py
@@ -283,7 +283,6 @@ def _offset(self, buf, size:int, offset:int): return from_mv(self._as_buffer(buf
 
 # CPUProgram is a jit/shellcode program that can be just mmapped and jumped to
 class CPUProgram:
-  rt_lib = ctypes.CDLL(ctypes.util.find_library('System' if OSX else 'kernel32') if OSX or sys.platform == "win32" else 'libgcc_s.so.1')
 
   def __init__(self, name:str, lib:bytes):
     if sys.platform == "win32":
@@ -303,6 +302,8 @@ def __init__(self, name:str, lib:bytes):
       # MAP_JIT allows us to easily flip pages from RW- to R-X and vice versa. It is a noop on intel cpus. (man pthread_jit_write_protect_np)
       self.mem = mmap(-1, len(lib), MAP_ANON | MAP_PRIVATE | (MAP_JIT if OSX else 0), PROT_READ | PROT_WRITE | PROT_EXEC)
 
+      if OSX or sys.platform == "win32": 
+        CPUProgram.rt_lib = ctypes.CDLL(ctypes.util.find_library('System' if OSX else 'kernel32') if OSX or sys.platform == "win32" else 'libgcc_s.so.1')
       if OSX: CPUProgram.rt_lib.pthread_jit_write_protect_np(False)
       self.mem.write(lib)
       if OSX: CPUProgram.rt_lib.pthread_jit_write_protect_np(True)
@@ -311,7 +312,8 @@ def __init__(self, name:str, lib:bytes):
       # libgcc_s comes as shared library but compiler-rt is only a bunch of static library archives which we can't directly load, but fortunately
       # it somehow found its way into libSystem on macos (likely because it used __builtin_clear_cache) and libgcc_s is ~always present on linux
       # Using ["name"] instead of .name because otherwise name is getting mangled: https://docs.python.org/3.12/reference/expressions.html#index-5
-      CPUProgram.rt_lib["__clear_cache"](ctypes.c_void_p(mv_address(self.mem)), ctypes.c_void_p(mv_address(self.mem) + len(lib)))
+      if hasattr(CPUProgram, "rt_lib"):
+        CPUProgram.rt_lib["__clear_cache"](ctypes.c_void_p(mv_address(self.mem)), ctypes.c_void_p(mv_address(self.mem) + len(lib)))
 
       self.fxn = ctypes.CFUNCTYPE(None)(mv_address(self.mem))
 

From be757b2a463c1f0815a7ed57af34cc68969c1e3e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 13:10:41 +0800
Subject: [PATCH 003/188] alu share dst and src is src will expire

---
 test/test_ops_2.py       |  2 +-
 tinygrad/renderer/asm.py | 55 +++++++++++++++++++++++++++++++++++++---
 2 files changed, 53 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 328a4f65c1380..d07b9703b638e 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -229,7 +229,7 @@ def _asm(self, a: Tensor, b: Tensor):
         return c_asm
   def test_(self):
     with Context():
-      K = 32
+      K = 2
       a, b = self._setup_data((3, K), (K, 4))
       if os.environ.get("MANUAL_CLANG"):
         clang_res = self._clang(a, b)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b42f7ffe8e672..f167621f011e6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -152,6 +152,7 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
       5: 9, #R9 
     }
     self.kernel: list[str] = []
+    self.i: int = 0
 
   def __getitem__(self, _key: UOp) -> RegBase:
     return self.assign(_key)
@@ -299,15 +300,22 @@ def alu(ctx, x):
   reg_type = IReg if dtypes.is_int(dtype) else FReg
   src0 = ctx.r.assign(x.src[0], reg_type=reg_type)
   src1 = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
-  dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
+  if ctx.r.uops[x.src[0]].end == ctx.r.i:
+    ctx.r.share(x, x.src[0])
+    dst = src0
+  else:
+    dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   _src0, _src1, _dst = src0.render(dtype.itemsize), src1.render(dtype.itemsize), dst.render(dtype.itemsize)
   if Arch.arm:
     return [f"{operator} {_dst}, {_src0}, {_src1};"]
   else:
     _mov = "mov" if dtypes.is_int(dtype) else "movss" 
-    return [f"{_mov} {_dst}, {_src0}",
-      f"{operator} {_dst}, {_src1}",]
+    if _dst == _src0:
+      return [f"{operator} {_dst}, {_src1}"]
+    else:
+      return [f"{_mov} {_dst}, {_src0}",
+        f"{operator} {_dst}, {_src1}",]
 
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
@@ -524,6 +532,7 @@ def render(self, uops:List[UOp]) -> str:
     if DEBUG.value >= 6:
       for _u, v in r.uops.items(): print(v, oneline_uop(_u))
     for i,u in enumerate(uops):
+      self.r.i = i
       if DEBUG.value >= 6:
         print("=================================")
         print(i, r.uops[u], u)
@@ -782,6 +791,46 @@ def test_reserve_not_enough_reg_pair(self):
       self.a.assign(self.uop3)
       self.a.assign(self.uop4, excludes=[self.uop3])
 
+class TestAllocatorAluShareReg(unittest.TestCase):
+  def test_add_no_share(self):
+    self.r = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, dtype=dtypes.float, arg=1)
+    self.var1 = Variable(self.uop1, 0, 4)
+    self.uop2 = UOp(Ops.CONST, dtype=dtypes.float, arg=2)
+    self.var2 = Variable(self.uop2, 1, 4)
+    self.uop3 = UOp(Ops.ADD, dtype=dtypes.float, src=(self.uop1, self.uop2), arg=3)
+    self.var3 = Variable(self.uop3, 2, 4)
+    self.r.uops[self.uop1] = self.var1
+    self.r.uops[self.uop2] = self.var2
+    self.r.uops[self.uop3] = self.var3
+    alu = [self.uop1, self.uop2, self.uop3]
+    self.r.assign_f32(self.uop1)
+    self.r.assign_f32(self.uop2)
+    rewriter = arm_rewrite if Arch.arm else x86_rewrite
+    l = rewriter.rewrite(self.uop3, self)
+    print(l)
+
+  def test_add_share(self):
+    self.r = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, dtype=dtypes.float, arg=1)
+    self.var1 = Variable(self.uop1, 0, 2)
+    self.uop2 = UOp(Ops.CONST, dtype=dtypes.float, arg=2)
+    self.var2 = Variable(self.uop2, 1, 2)
+    self.uop3 = UOp(Ops.ADD, dtype=dtypes.float, src=(self.uop1, self.uop2), arg=3)
+    self.var3 = Variable(self.uop3, 2, 4)
+    self.r.uops[self.uop1] = self.var1
+    self.r.uops[self.uop2] = self.var2
+    self.r.uops[self.uop3] = self.var3
+    alu = [self.uop1, self.uop2, self.uop3]
+    self.r.assign_f32(self.uop1)
+    self.r.assign_f32(self.uop2)
+    rewriter = arm_rewrite if Arch.arm else x86_rewrite
+    self.r.i = 2
+    l = rewriter.rewrite(self.uop3, self)
+    print(l)
+
+
+
 class TestReg(unittest.TestCase):
   def test_singleton(self):
     assert IReg(3) is IReg(3)

From e25829c3e424ccef9c9179b2dd2bdba2916f8334 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 14:15:52 +0800
Subject: [PATCH 004/188] cont'd

---
 tinygrad/renderer/asm.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f167621f011e6..b7a54c832df24 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -808,7 +808,7 @@ def test_add_no_share(self):
     self.r.assign_f32(self.uop2)
     rewriter = arm_rewrite if Arch.arm else x86_rewrite
     l = rewriter.rewrite(self.uop3, self)
-    print(l)
+    assert len(cast(list[str], l)) == 2
 
   def test_add_share(self):
     self.r = Allocator(3, 3)
@@ -827,7 +827,7 @@ def test_add_share(self):
     rewriter = arm_rewrite if Arch.arm else x86_rewrite
     self.r.i = 2
     l = rewriter.rewrite(self.uop3, self)
-    print(l)
+    assert len(cast(list[str], l)) == 1
 
 
 

From d93a0119f269ab054457ff19153fd1904dad3163 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 14:48:50 +0800
Subject: [PATCH 005/188] x86 can use lea

---
 tinygrad/renderer/asm.py | 25 +++++++++++++------------
 1 file changed, 13 insertions(+), 12 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b7a54c832df24..a98aeaf6f24da 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -153,6 +153,7 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     }
     self.kernel: list[str] = []
     self.i: int = 0
+    self.do_not_use: list[RegBase] = [IReg(4)]
 
   def __getitem__(self, _key: UOp) -> RegBase:
     return self.assign(_key)
@@ -165,11 +166,13 @@ def flush_kernel(self) -> list[str]:
   def extend_kernel(self, l: list[str]):
     self.kernel.extend(l)
 
-  def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None) -> tuple[RegBase, list[str]]:
+  def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
+            exclude_regs: list[RegBase]=[]) -> tuple[RegBase, list[str]]:
     if reg_type is not None:
       pool = self.pools[reg_type]
       if len(pool):
-        return pool.pop(0), []
+        while (reg:=pool.pop(0)) in self.do_not_use: pass
+        return reg, []
       else:
         if reg_type is FReg:
           raise Exception("Not sure how to spill float register yet")
@@ -179,7 +182,7 @@ def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None)
             vars_in_regs.append(var)
         if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
         sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
-        last_ending_var, *vars = sorted_vars
+        last_ending_var, *_ = sorted_vars
         self.move_var_to_stack(last_ending_var)
         reg = self.pools[reg_type].pop(0)
         return reg, []
@@ -211,7 +214,8 @@ def save_var_to_stack(self, v: Variable):
     self.extend_kernel(k)
 
   def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
-             reg_type: Optional[type[RegBase]]=IReg) -> RegBase:
+             reg_type: Optional[type[RegBase]]=IReg,
+             ) -> RegBase:
     if _key not in self.uops:
       raise Exception("Attempting to access a non-existent variable, maybe expired?")
     var = self.uops[_key]
@@ -380,11 +384,7 @@ def _index(ctx, x):
   if Arch.arm:
     return [ f"add {reg}, {src0_str}, {src1_str}, lsl #{lsl}" ]
   else:
-    return [
-      f"mov {reg}, {src1_str}",
-      f"shl {reg}, {lsl}",
-      f"add {reg}, {src0_str}",
-    ]
+    return [ f"lea {reg}, [{src0_str} + {src1_str} * {multiplier}]" ]
 
 def assign(ctx, x):
   reg_type = IReg if dtypes.is_int(x.src[0].dtype) else FReg
@@ -536,6 +536,9 @@ def render(self, uops:List[UOp]) -> str:
       if DEBUG.value >= 6:
         print("=================================")
         print(i, r.uops[u], u)
+        print("src intervals:")
+        for src in u.src:
+          print(self.r.uops[src])
       r.free_expired(i)
       if u.op is Ops.DEFINE_GLOBAL:
         self.r.move_var_to_stack(r.uops[u])
@@ -1089,9 +1092,7 @@ def test_x86_index(self):
     a = UOp(Ops.INDEX, dtypes.int.ptr(16), arg=None, src=(
       x2:=UOp(Ops.DEFINE_GLOBAL, dtypes.int.ptr(16), arg=0, src=()),
       x3:=UOp(Ops.CONST, dtypes.int, arg=None, src=()),))
-    self.render(a, ["mov rdx, rcx",
-                    "shl rdx, 2",
-                    "add rdx, rax"])
+    self.render(a, ["lea rdx, [rax + rcx * 4]"])
   @arm
   def test_arm_index(self):
     a = UOp(Ops.INDEX, dtypes.int.ptr(16), arg=None, src=(

From d30479aa53bb3609be119c50d4278bf34190ecbc Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 14:53:00 +0800
Subject: [PATCH 006/188] fix share reg alu test on arm

---
 tinygrad/renderer/asm.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a98aeaf6f24da..9630702bbeff1 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -811,7 +811,9 @@ def test_add_no_share(self):
     self.r.assign_f32(self.uop2)
     rewriter = arm_rewrite if Arch.arm else x86_rewrite
     l = rewriter.rewrite(self.uop3, self)
-    assert len(cast(list[str], l)) == 2
+    print(l)
+    assert self.r.uops[self.uop3].reg != self.r.uops[self.uop1].reg
+    #assert len(cast(list[str], l)) == 2
 
   def test_add_share(self):
     self.r = Allocator(3, 3)
@@ -830,6 +832,8 @@ def test_add_share(self):
     rewriter = arm_rewrite if Arch.arm else x86_rewrite
     self.r.i = 2
     l = rewriter.rewrite(self.uop3, self)
+
+    assert self.r.uops[self.uop3].reg == self.r.uops[self.uop1].reg
     assert len(cast(list[str], l)) == 1
 
 

From ea1fa519fb08f3e0ea3945be59ad0dd48842c96b Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 14:57:08 +0800
Subject: [PATCH 007/188] range newline

---
 tinygrad/renderer/asm.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9630702bbeff1..cfb03d98029a8 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -353,7 +353,7 @@ def _range(ctx, x):
   counter = ctx.r.assign(x, reserve=True, reg_type=IReg).render64()
   return [
       f"mov {counter}, #0",
-      f"\n.LOOP_{x.arg}:"
+      f".LOOP_{x.arg}:"
   ]
 
 def endrange(ctx, x):
@@ -550,7 +550,7 @@ def render(self, uops:List[UOp]) -> str:
         if (l:=rewriter.rewrite(u, ctx=self)) is None:
           raise RuntimeError(f"failed to render {u.op} with {u.dtype} srcs {[x.dtype for x in u.src]}")
         l = cast(list[str], l)
-        l = [*r.flush_kernel(), *l]
+        l = ["", *r.flush_kernel(), *l]
         if DEBUG.value >= 6:
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
@@ -1076,7 +1076,7 @@ def test_x86_range(self):
     a = UOp(Ops.RANGE, arg=0, src=(
       UOp(Ops.CONST, arg=4),
     ))
-    self.render(a, ["mov rax, #0", "\n.LOOP_0:"])
+    self.render(a, ["mov rax, #0", ".LOOP_0:"])
     b = UOp(Ops.ENDRANGE, src=(
       a,
     ))
@@ -1086,7 +1086,7 @@ def test_arm_range(self):
     a = UOp(Ops.RANGE, arg=0, src=(
       UOp(Ops.CONST, arg=4),
     ))
-    self.render(a, ["mov x0, #0", "\n.LOOP_0:"])
+    self.render(a, ["mov x0, #0", ".LOOP_0:"])
     b = UOp(Ops.ENDRANGE, src=(
       a,
     ))

From 7e0a5b7d6572ff7c54221ba2579bd8dce47b15e8 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 21:40:12 +0800
Subject: [PATCH 008/188] no fma, unroll limit size to 8

---
 test/test_ops_2.py          | 24 ++++++++++++++++++------
 tinygrad/opt/heuristic.py   |  2 +-
 tinygrad/runtime/ops_cpu.py |  2 +-
 3 files changed, 20 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d07b9703b638e..ada5c21e787e9 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -143,19 +143,31 @@ def test_matmul_f32(self):
         [76, 98],
         [124, 162]
         ], dtype=np.float32))
-  def test_matmul_f32_rand(self):
+
+  def _test_matmul_f32_rand(self, shape_a, shape_b):
     np.random.seed(0)
-    a = np.random.rand(3, 4).astype(np.float32)
-    b = np.random.rand(4, 2).astype(np.float32)
+    a = np.random.rand(*shape_a).astype(np.float32)
+    b = np.random.rand(*shape_b).astype(np.float32)
     a_t = Tensor(a)
     b_t = Tensor(b)
     np_res = np.matmul(a, b)
     with Context(NOOPT=1, DEBUG=0):
       clang_res = a_t.to("cpu").dot(b_t.to("cpu")).numpy()
     with Context(NOOPT=1):
-      #np.testing.assert_equal(clang_res, np_res)
-      #np.testing.assert_equal(np_res, a_t.to("asm").dot(b_t.to("asm")).numpy())
-      np.testing.assert_allclose(np_res, a_t.to("asm").dot(b_t.to("asm")).numpy())
+      asm_res = a_t.to("asm").dot(b_t.to("asm")).numpy()
+      np.testing.assert_allclose(clang_res, asm_res)
+    with Context(NOOPT=0):
+      asm_res_2 = a_t.to("asm").dot(b_t.to("asm")).numpy()
+      np.testing.assert_allclose(clang_res, asm_res_2)
+
+  def test_matmul_f32_rand_3_2_4(self):
+    self._test_matmul_f32_rand((3,4), (4,2))
+
+  def test_matmul_f32_rand_3_2_8(self):
+    self._test_matmul_f32_rand((3,8), (8,2))
+
+  def test_matmul_f32_rand_3_2_16(self):
+    self._test_matmul_f32_rand((3,16), (16,2))
 
   @unittest.skipUnless(os.environ.get("MANUAL"), "")
   def test_matmul_f32_rand_small(self):
diff --git a/tinygrad/opt/heuristic.py b/tinygrad/opt/heuristic.py
index e2af749845cf6..4e9dfabaf2ffa 100644
--- a/tinygrad/opt/heuristic.py
+++ b/tinygrad/opt/heuristic.py
@@ -81,7 +81,7 @@ def has_expanded_axis(shape, strides): return any(resolve(s > 1) and not resolve
   # if last reduce dim is small(ish), loop unroll the reduce
   upcast_size = prod(k.full_shape[a] for a in k.axes_of(AxisType.UPCAST, AxisType.UNROLL))
   if k.unrollable_dims and (upcast_size <= 4 or not k.axes_of(AxisType.UNROLL)) and (upcast_size < 64):
-    if (s:=k.full_shape[k.unrollable_dims[-1]]) <= 32:
+    if (s:=k.full_shape[k.unrollable_dims[-1]]) <= 8:
       k.apply_opt(Opt(OptOps.UNROLL, k.unrollable_dims[-1]-k.first_reduce, 0))
       # if it's small, upcast a second reduce dimension too
       if k.unrollable_dims and s <= 3 and k.full_shape[k.unrollable_dims[-1]] <= 3:
diff --git a/tinygrad/runtime/ops_cpu.py b/tinygrad/runtime/ops_cpu.py
index c5a15afb52b75..6a03e94afd6a6 100644
--- a/tinygrad/runtime/ops_cpu.py
+++ b/tinygrad/runtime/ops_cpu.py
@@ -11,7 +11,7 @@ def compile(self, src:str) -> bytes:
     # -fno-math-errno is required for __builtin_sqrt to become an instruction instead of a function call
     # x18 is a reserved platform register. It is clobbered on context switch in macos and is used to store TEB pointer in windows on arm, don't use it
     target = 'x86_64' if sys.platform == 'win32' else platform.machine()
-    args = ['-march=native', f'--target={target}-none-unknown-elf', '-O2', '-fPIC', '-ffreestanding', '-fno-math-errno', '-nostdlib', '-fno-ident']
+    args = [f'--target={target}-none-unknown-elf', '-O2', '-fPIC', '-ffreestanding', '-fno-math-errno', '-nostdlib', '-fno-ident']
     arch_args = ['-ffixed-x18'] if target == 'arm64' else []
     obj = subprocess.check_output([getenv("CC", 'clang'), '-c', '-x', 'c', *args, *arch_args, '-', '-o', '-'], input=src.encode('utf-8'))
     return jit_loader(obj)

From 40397b668e4798c16c6624a19ccfae57321e30d8 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 16 Jul 2025 23:14:01 +0800
Subject: [PATCH 009/188] set up failed test_abs

---
 test/test_ops_2.py | 47 +++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 44 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index ada5c21e787e9..2a749e8d54449 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -1,4 +1,4 @@
-import time, math, unittest, functools, os
+import time, math, unittest, functools, os, torch
 import numpy as np
 from typing import List, Callable
 import warnings
@@ -7,6 +7,46 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
+def helper_test_op(shps, torch_fxn, tinygrad_fxn=None, atol=1e-6, rtol=1e-3, grad_atol=1e-4, grad_rtol=1e-3,
+                   forward_only=False, vals=None, low=-2, high=2):
+  if tinygrad_fxn is None: tinygrad_fxn = torch_fxn
+  ts, tst = prepare_test_op(low, high, shps, vals, forward_only)
+
+  st = time.monotonic()
+  out = torch_fxn(*ts)
+  torch_fp = time.monotonic() - st
+
+  st = time.monotonic()
+  ret = tinygrad_fxn(*tst).realize()
+  tinygrad_fp = time.monotonic() - st
+
+  def compare(s, tinygrad_output, torch_output, atol, rtol):
+    try:
+      if np.issubdtype(tinygrad_output.dtype, np.floating):
+        np.testing.assert_allclose(tinygrad_output, torch_output, atol=atol, rtol=rtol)
+      else:
+        np.testing.assert_equal(tinygrad_output, torch_output)
+    except Exception as e:
+      raise Exception(f"{s} failed shape {tinygrad_output.shape}: {e}")
+
+  compare("forward pass", ret.numpy(), out.detach().cpu().numpy(), atol=atol, rtol=rtol)
+
+  torch_fbp, tinygrad_fbp = np.nan, np.nan
+
+def prepare_test_op(low, high, shps, vals, forward_only=False):
+  if shps is None:
+    ts = [torch.tensor(x, requires_grad=(not forward_only)) for x in vals]
+  else:
+    np.random.seed(0)
+    np_data = [np.random.uniform(low=low, high=high, size=size).astype(_to_np_dtype(dtypes.default_float)) for size in shps]
+    ts = [torch.tensor(data, requires_grad=(not forward_only)) for data in np_data]
+  for i in range(len(ts)):
+    # NOTE: torch default int64 for python ints input
+    if ts[i].dtype == torch.int64: ts[i] = ts[i].type(torch.int32)
+  tst = [Tensor(x.detach().cpu().numpy(), requires_grad=(not forward_only)) for x in ts]
+  return ts, tst
+
+
 class TestOps(unittest.TestCase):
   def test_full(self):
     a = Tensor.full((4, 4), 20, dtype=dtypes.int).contiguous().realize()
@@ -45,14 +85,15 @@ def test_meshgrid(self):
     print(grid_x.numpy())
     #print(grid_y.numpy())
 
-  @unittest.skip("")
   def test_arange(self):
     print(Tensor.arange(100).numpy())
 
-  @unittest.skip("")
   def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
 
+  def test_abs(self):
+    helper_test_op([(45,65)], torch.abs, Tensor.abs)
+
   @unittest.skip("")
   def test_sum(self):
     print(Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy())

From 12b3e067ce502b77ae217b2e669b20c9d6c35fad Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 14:40:56 +0800
Subject: [PATCH 010/188] abs fail with just data error

---
 test/test_ops_2.py       |  4 ++-
 tinygrad/renderer/asm.py | 64 ++++++++++++++++++++++++++++++++++++++++
 2 files changed, 67 insertions(+), 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 2a749e8d54449..fe0ecee24b637 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -92,7 +92,9 @@ def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
 
   def test_abs(self):
-    helper_test_op([(45,65)], torch.abs, Tensor.abs)
+    with Context(NOOPT=1): helper_test_op([(2,2)], torch.abs, Tensor.abs)
+    #with Context(NOOPT=0): helper_test_op([(8,8)], torch.abs, Tensor.abs)
+    #helper_test_op([(45,65)], torch.abs, Tensor.abs)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index cfb03d98029a8..f88993b3cedbf 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -45,12 +45,20 @@ class RegBase(metaclass=RegMeta):
   size: int # bits
   def __init__(self, id: int): self.id = id
   def __repr__(self): return self.render64()
+  def render8(self):  raise NotImplementedError()
   def render32(self): raise NotImplementedError()
   def render64(self): raise NotImplementedError()
   def render(self, itemsize: int): raise NotImplementedError()
 
 class IReg(RegBase):
   size = 64
+  def render8(self):
+    if Arch.arm: return self.render32()
+    else:
+      if self.id < 8:
+        return ["al", "cl", "dl", "bl", "spl", "bpl", "sil", "dil"][self.id]
+      else:
+        return f"r{self.id}b"
   def render32(self):
     if Arch.arm: return f"w{self.id}"
     else: return ["eax", "ecx", "edx", "ebx", "esp", "ebp", "esi", "edi",
@@ -394,13 +402,69 @@ def assign(ctx, x):
   ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
   return [f"{opcode} {dst}, {src}"]
 
+def float_to_bool(ctx, x, a):
+  dst = ctx.r.assign(x, reg_type=IReg)
+  src = ctx.r.assign(a, reg_type=FReg)
+  temp_reg, _ = ctx.r.alloc(excludes=[src], reg_type=FReg)
+  ctx.r.return_reg(temp_reg)
+  print(f"{dst=}")
+  if Arch.arm:
+    pass
+  else:
+    return [
+      f"pxor {temp_reg}, {temp_reg}",
+      f"ucomiss {temp_reg}, {src}",
+      f"xor {dst}, {dst}",
+      f"setne {dst.render8()}"
+    ]
+
+def float_cmplt(ctx, x, a, b):
+  dst = ctx.r.assign(x, reg_type=IReg)
+  src_a = ctx.r.assign(a, reg_type=FReg)
+  src_b = ctx.r.assign(b, excludes=[src_a], reg_type=FReg)
+  temp_reg, kernel = ctx.r.alloc(excludes=[src_a, src_b], reg_type=FReg)
+  ctx.r.return_reg(temp_reg)
+  if Arch.arm:
+    pass
+  else:
+    return [
+      f"movss {temp_reg}, {src_a}",
+      f"ucomiss {temp_reg}, {src_b}",
+      f"xor {dst}, {dst}",
+      f"setne {dst.render8()}"
+    ]
+
+def _where(ctx, x):
+  cond, t, f = x.src
+  if Arch.arm:
+    pass
+  else:
+    _dst = ctx.r.assign(x, reg_type=FReg)
+    _cond = ctx.r.assign(cond, reg_type=IReg)
+    _t = ctx.r.assign(t, reg_type=FReg, excludes=[_dst])
+    _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
+    return [
+      f"test {_cond}, {_cond}",
+      f"jnz .true_case{ctx.r.i}",
+      f"movaps {_dst}, {_f}",
+      f"jmp .end{ctx.r.i}",
+      f".true_case{ctx.r.i}:",
+      f"movaps {_dst}, {_t}",
+      f".end{ctx.r.i}:",
+    ]
+
 complex_rewrites = PatternMatcher([
+  (UPat(Ops.CMPLT, name="x", src=(UPat(dtype=dtypes.float, name="a"),
+                                  UPat(dtype=dtypes.float, name="b"))),
+   float_cmplt),
+  (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
   (UPat(Ops.RANGE, name="x"), _range),
   (UPat(Ops.ENDRANGE, name="x"), endrange),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(dtype=dtypes.float, name="a"),)), float_to_bool),
 ])
 x86_rewrite = PatternMatcher([
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),

From 801135237c470929aa14e6356f859e8c40e334d5 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 20:24:32 +0800
Subject: [PATCH 011/188] positive number correct

---
 tinygrad/renderer/asm.py | 19 ++++++++++---------
 1 file changed, 10 insertions(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f88993b3cedbf..d72cf4a4aaf12 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -7,7 +7,7 @@
 from tinygrad.dtype import DType, PtrDType
 from collections import OrderedDict, defaultdict
 from typing import List, Dict, Optional, cast, Literal, Union, Callable
-import struct, math, unittest, platform, enum
+import struct, math, unittest, platform, enum, os
 import platform
 
 class ArchType(enum.Enum):
@@ -415,7 +415,7 @@ def float_to_bool(ctx, x, a):
       f"pxor {temp_reg}, {temp_reg}",
       f"ucomiss {temp_reg}, {src}",
       f"xor {dst}, {dst}",
-      f"setne {dst.render8()}"
+      f"sete {dst.render8()}"
     ]
 
 def float_cmplt(ctx, x, a, b):
@@ -431,7 +431,7 @@ def float_cmplt(ctx, x, a, b):
       f"movss {temp_reg}, {src_a}",
       f"ucomiss {temp_reg}, {src_b}",
       f"xor {dst}, {dst}",
-      f"setne {dst.render8()}"
+      f"setb {dst.render8()}"
     ]
 
 def _where(ctx, x):
@@ -445,12 +445,12 @@ def _where(ctx, x):
     _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
     return [
       f"test {_cond}, {_cond}",
-      f"jnz .true_case{ctx.r.i}",
-      f"movaps {_dst}, {_f}",
-      f"jmp .end{ctx.r.i}",
-      f".true_case{ctx.r.i}:",
+      f"jz .f_case_{ctx.r.i}",
       f"movaps {_dst}, {_t}",
-      f".end{ctx.r.i}:",
+      f"jmp .end_{ctx.r.i}",
+      f".f_case_{ctx.r.i}:",
+      f"movaps {_dst}, {_f}",
+      f".end_{ctx.r.i}:",
     ]
 
 complex_rewrites = PatternMatcher([
@@ -659,7 +659,8 @@ def render(self, uops:List[UOp]) -> str:
 {name}:
 {_kernel}
     """
-    with open("../tg-dev/matmul6/kernel.s", "wt") as f: f.write(ret)
+    if os.environ.get("MANUAL_ASM"):
+      with open("../tg-dev/abs/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 class Tests(unittest.TestCase):

From 50e29127c7b5c69985c55248cd407d6649b41379 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 20:38:43 +0800
Subject: [PATCH 012/188] abs works

---
 tinygrad/renderer/asm.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d72cf4a4aaf12..3f9edc873ad41 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -412,10 +412,10 @@ def float_to_bool(ctx, x, a):
     pass
   else:
     return [
-      f"pxor {temp_reg}, {temp_reg}",
-      f"ucomiss {temp_reg}, {src}",
       f"xor {dst}, {dst}",
-      f"sete {dst.render8()}"
+      f"pxor {temp_reg}, {temp_reg}",
+      f"ucomiss {temp_reg}, {src}", # ZF=1 => src == 0, ZF=0 => src != 0
+      f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
 def float_cmplt(ctx, x, a, b):
@@ -428,10 +428,10 @@ def float_cmplt(ctx, x, a, b):
     pass
   else:
     return [
-      f"movss {temp_reg}, {src_a}",
-      f"ucomiss {temp_reg}, {src_b}",
       f"xor {dst}, {dst}",
-      f"setb {dst.render8()}"
+      f"movss {temp_reg}, {src_a}",
+      f"ucomiss {temp_reg}, {src_b}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+      f"setb {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
     ]
 
 def _where(ctx, x):
@@ -444,8 +444,8 @@ def _where(ctx, x):
     _t = ctx.r.assign(t, reg_type=FReg, excludes=[_dst])
     _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
     return [
-      f"test {_cond}, {_cond}",
-      f"jz .f_case_{ctx.r.i}",
+      f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
+      f"jz .f_case_{ctx.r.i}", #jump if ZF=1 => condition is false
       f"movaps {_dst}, {_t}",
       f"jmp .end_{ctx.r.i}",
       f".f_case_{ctx.r.i}:",

From c86afe72ab280c8588c2b2ba91e0b1fe42d66a20 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 21:07:01 +0800
Subject: [PATCH 013/188] asm

---
 tinygrad/renderer/asm.py | 23 ++++++++++++++++-------
 1 file changed, 16 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 3f9edc873ad41..ae1340e6f14d6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -409,7 +409,10 @@ def float_to_bool(ctx, x, a):
   ctx.r.return_reg(temp_reg)
   print(f"{dst=}")
   if Arch.arm:
-    pass
+    return [
+	f"fcmp {src}, #0.0",    # Compare float with 0.0
+	f"cset {dst}, ne"       # Set dst=1 if not equal, else 0
+    ]
   else:
     return [
       f"xor {dst}, {dst}",
@@ -425,7 +428,10 @@ def float_cmplt(ctx, x, a, b):
   temp_reg, kernel = ctx.r.alloc(excludes=[src_a, src_b], reg_type=FReg)
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
-    pass
+    return [
+	f"fcmp {src_a}, {src_b}",   # Compare a and b
+	f"cset {dst}, mi"            # Set if less (mi = minus/Negative flag)
+    ]
   else:
     return [
       f"xor {dst}, {dst}",
@@ -436,13 +442,16 @@ def float_cmplt(ctx, x, a, b):
 
 def _where(ctx, x):
   cond, t, f = x.src
+  _dst = ctx.r.assign(x, reg_type=FReg)
+  _cond = ctx.r.assign(cond, reg_type=IReg)
+  _t = ctx.r.assign(t, reg_type=FReg, excludes=[_dst])
+  _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
   if Arch.arm:
-    pass
+    return [
+	f"cmp {_cond}, #0",          # Test condition ≠0
+	f"fcsel {_dst}, {_t}, {_f}, ne"  # Select _t if true, _f if false
+    ]
   else:
-    _dst = ctx.r.assign(x, reg_type=FReg)
-    _cond = ctx.r.assign(cond, reg_type=IReg)
-    _t = ctx.r.assign(t, reg_type=FReg, excludes=[_dst])
-    _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
     return [
       f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
       f"jz .f_case_{ctx.r.i}", #jump if ZF=1 => condition is false

From 92be831271c56b21dece84f5d008b585fe710415 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 21:14:12 +0800
Subject: [PATCH 014/188] arm fma

---
 tinygrad/runtime/ops_cpu.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/tinygrad/runtime/ops_cpu.py b/tinygrad/runtime/ops_cpu.py
index 6a03e94afd6a6..2f27cf7dd681a 100644
--- a/tinygrad/runtime/ops_cpu.py
+++ b/tinygrad/runtime/ops_cpu.py
@@ -1,4 +1,4 @@
-import platform, subprocess, sys
+import platform, subprocess, sys, os
 from tinygrad.helpers import capstone_flatdump, getenv
 from tinygrad.device import Compiled, Compiler, MallocAllocator, CPUProgram
 from tinygrad.runtime.support.elf import jit_loader
@@ -12,6 +12,12 @@ def compile(self, src:str) -> bytes:
     # x18 is a reserved platform register. It is clobbered on context switch in macos and is used to store TEB pointer in windows on arm, don't use it
     target = 'x86_64' if sys.platform == 'win32' else platform.machine()
     args = [f'--target={target}-none-unknown-elf', '-O2', '-fPIC', '-ffreestanding', '-fno-math-errno', '-nostdlib', '-fno-ident']
+    if os.environ.get("FFP", 0):
+      if platform.machine() == "x86_64":
+        args.append("-march=native")
+    else:
+      if platform.machine() == "aarch64":
+        args.append("-ffp-contract=off")
     arch_args = ['-ffixed-x18'] if target == 'arm64' else []
     obj = subprocess.check_output([getenv("CC", 'clang'), '-c', '-x', 'c', *args, *arch_args, '-', '-o', '-'], input=src.encode('utf-8'))
     return jit_loader(obj)

From bd980e8153c5a8339e4fc5852203804fc2e58438 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 17 Jul 2025 21:14:31 +0800
Subject: [PATCH 015/188] abs test with neg hardcoded val

---
 test/test_ops_2.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index fe0ecee24b637..ac101fb4263ff 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -96,6 +96,10 @@ def test_abs(self):
     #with Context(NOOPT=0): helper_test_op([(8,8)], torch.abs, Tensor.abs)
     #helper_test_op([(45,65)], torch.abs, Tensor.abs)
 
+  def test_abs_2(self):
+    a = Tensor([0, -1.0, 2.0],  dtype=dtypes.float, device="cpu") 
+    np.testing.assert_equal(a.abs().numpy(), np.array([0, 1, 2]).astype(np.float32))
+
   @unittest.skip("")
   def test_sum(self):
     print(Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy())

From 800f49eb8b5b47a198b0efac59023a3d38805a0b Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 15:44:04 +0800
Subject: [PATCH 016/188] abs with float64

---
 test/test_ops_2.py       |  9 ++++++---
 tinygrad/renderer/asm.py | 33 ++++++++++++++++++++++-----------
 2 files changed, 28 insertions(+), 14 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index ac101fb4263ff..6dbf23f2d3dff 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -96,9 +96,12 @@ def test_abs(self):
     #with Context(NOOPT=0): helper_test_op([(8,8)], torch.abs, Tensor.abs)
     #helper_test_op([(45,65)], torch.abs, Tensor.abs)
 
-  def test_abs_2(self):
-    a = Tensor([0, -1.0, 2.0],  dtype=dtypes.float, device="cpu") 
-    np.testing.assert_equal(a.abs().numpy(), np.array([0, 1, 2]).astype(np.float32))
+  def _test_abs(self, data, dtype):
+    a = Tensor(data,  dtype=dtype, device="asm") 
+    np.testing.assert_equal(a.abs().numpy(), np.abs(np.array(data).astype(_to_np_dtype(dtype))))
+
+  def test_abs_f32(self): self._test_abs([0, -1, 2, -4], dtypes.float32)
+  def test_abs_f64(self): self._test_abs([0, -1, 2, -4], dtypes.float64)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ae1340e6f14d6..45cc13764479d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -346,14 +346,21 @@ def const(ctx, x):
   reg_str = reg.render(x.dtype.itemsize)
   label = f"const_{len(ctx.mem)}"
   if Arch.arm:
-    ctx.mem.append((label, f".single {x.arg}"))
+    if x.dtype.itemsize == 4: data_type = ".single"
+    else: data_type = ".double"
+    ctx.mem.append((label, f"{data_type} {x.arg}"))
     temp_reg, kernel = ctx.r.alloc([reg], IReg)
     ctx.r.return_reg(temp_reg)
     return [f"adrp {temp_reg}, {label}",
       f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]
   else:
-    op = "movss" if x.dtype.itemsize == 4 else "movsd"
-    ctx.mem.append((label, f".float {x.arg}"))
+    if x.dtype.itemsize == 4:
+      data_type = ".float"
+      op = "movss"
+    else:
+      data_type = ".double"
+      op = "movsd"
+    ctx.mem.append((label, f"{data_type} {x.arg}"))
     return [ f"{op} {reg_str}, [rip+{label}]" ]
 
 def _range(ctx, x):
@@ -414,10 +421,11 @@ def float_to_bool(ctx, x, a):
 	f"cset {dst}, ne"       # Set dst=1 if not equal, else 0
     ]
   else:
+    op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
     return [
       f"xor {dst}, {dst}",
       f"pxor {temp_reg}, {temp_reg}",
-      f"ucomiss {temp_reg}, {src}", # ZF=1 => src == 0, ZF=0 => src != 0
+      f"{op} {temp_reg}, {src}", # ZF=1 => src == 0, ZF=0 => src != 0
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
@@ -433,10 +441,12 @@ def float_cmplt(ctx, x, a, b):
 	f"cset {dst}, mi"            # Set if less (mi = minus/Negative flag)
     ]
   else:
+    cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
+    mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
     return [
       f"xor {dst}, {dst}",
-      f"movss {temp_reg}, {src_a}",
-      f"ucomiss {temp_reg}, {src_b}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+      f"{mov_op} {temp_reg}, {src_a}",
+      f"{cmp_op} {temp_reg}, {src_b}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
       f"setb {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
     ]
 
@@ -452,19 +462,20 @@ def _where(ctx, x):
 	f"fcsel {_dst}, {_t}, {_f}, ne"  # Select _t if true, _f if false
     ]
   else:
+    mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
     return [
       f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
       f"jz .f_case_{ctx.r.i}", #jump if ZF=1 => condition is false
-      f"movaps {_dst}, {_t}",
+      f"{mov_op} {_dst}, {_t}",
       f"jmp .end_{ctx.r.i}",
       f".f_case_{ctx.r.i}:",
-      f"movaps {_dst}, {_f}",
+      f"{mov_op} {_dst}, {_f}",
       f".end_{ctx.r.i}:",
     ]
 
 complex_rewrites = PatternMatcher([
-  (UPat(Ops.CMPLT, name="x", src=(UPat(dtype=dtypes.float, name="a"),
-                                  UPat(dtype=dtypes.float, name="b"))),
+  (UPat(Ops.CMPLT, name="x", src=(UPat(dtype=dtypes.floats, name="a"),
+                                  UPat(dtype=dtypes.floats, name="b"))),
    float_cmplt),
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.ASSIGN, name="x"), assign),
@@ -473,7 +484,7 @@ def _where(ctx, x):
   (UPat(Ops.ENDRANGE, name="x"), endrange),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(dtype=dtypes.float, name="a"),)), float_to_bool),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(dtype=dtypes.floats, name="a"),)), float_to_bool),
 ])
 x86_rewrite = PatternMatcher([
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),

From 7b79e0cc42f1d76b3a4283c1816343a170c18914 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 15:44:43 +0800
Subject: [PATCH 017/188] test abs integer 32

---
 test/test_ops_2.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 6dbf23f2d3dff..fbcc48d998e4c 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -102,6 +102,7 @@ def _test_abs(self, data, dtype):
 
   def test_abs_f32(self): self._test_abs([0, -1, 2, -4], dtypes.float32)
   def test_abs_f64(self): self._test_abs([0, -1, 2, -4], dtypes.float64)
+  def test_abs_i32(self): self._test_abs([0, -1, 2, -4], dtypes.int32)
 
   @unittest.skip("")
   def test_sum(self):

From 87c7772b69faa661eae8863a9dc51821905d2bfa Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 16:29:53 +0800
Subject: [PATCH 018/188] load and store for var need to check bool, and handle
 movsd

---
 tinygrad/renderer/asm.py | 79 ++++++++++++++++++++++++++++------------
 1 file changed, 55 insertions(+), 24 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 45cc13764479d..6f40ffbd03f67 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -119,7 +119,10 @@ def store(self, dst: str) -> list[str]:
       if Arch.arm:
         return [f"str {self.reg.render64()}, [x29, #-{self.stack}]"]
       else:
-        op = "mov" if dtypes.is_int(self.uop.dtype) or hasattr(self.uop.dtype, "_base") else "movss"
+        if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
+          op = "mov"
+        else:
+          op = "movss" if self.uop.dtype.itemsize == 4 else "movdd"
         return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
     else:
       raise Exception("not implemented")
@@ -135,7 +138,10 @@ def load(self, reg: RegBase, src: str) -> list[str]:
       if Arch.arm:
         return [f"ldr {reg.render64()}, [x29, #-{self.stack}]"]
       else:
-        op = "mov" if dtypes.is_int(self.uop.dtype) or hasattr(self.uop.dtype, "_base") else "movss"
+        if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
+          op = "mov"
+        else:
+          op = "movss" if self.uop.dtype.itemsize == 4 else "movdd"
         return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
     else: raise Exception("not implemented")
 
@@ -409,40 +415,60 @@ def assign(ctx, x):
   ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
   return [f"{opcode} {dst}, {src}"]
 
-def float_to_bool(ctx, x, a):
+def to_bool(ctx, x, a):
+  if dtypes.is_int(a.dtype):
+    reg_type = IReg
+  else:
+    reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
-  src = ctx.r.assign(a, reg_type=FReg)
-  temp_reg, _ = ctx.r.alloc(excludes=[src], reg_type=FReg)
+  src = ctx.r.assign(a, reg_type=reg_type)
+  temp_reg, _ = ctx.r.alloc(excludes=[src], reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
-  print(f"{dst=}")
   if Arch.arm:
+    if dtypes.is_int(a.dtype):
+      op = "cmp"
+    else:
+      op = "fcmp"
     return [
-	f"fcmp {src}, #0.0",    # Compare float with 0.0
+	f"{op} {src}, #0",    # Compare float with 0.0
 	f"cset {dst}, ne"       # Set dst=1 if not equal, else 0
     ]
   else:
-    op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
+    if dtypes.is_int(a.dtype):
+      test_op = "test"
+      reset_op = "xor"
+    else:
+      reset_op = "por"
+      test_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
     return [
       f"xor {dst}, {dst}",
-      f"pxor {temp_reg}, {temp_reg}",
-      f"{op} {temp_reg}, {src}", # ZF=1 => src == 0, ZF=0 => src != 0
+      f"{reset_op} {temp_reg}, {temp_reg}",
+      f"{test_op} {temp_reg}, {src}", # ZF=1 => src == 0, ZF=0 => src != 0
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
 def float_cmplt(ctx, x, a, b):
+  if dtypes.is_int(a.dtype): reg_type = IReg
+  else: reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
-  src_a = ctx.r.assign(a, reg_type=FReg)
-  src_b = ctx.r.assign(b, excludes=[src_a], reg_type=FReg)
-  temp_reg, kernel = ctx.r.alloc(excludes=[src_a, src_b], reg_type=FReg)
+  src_a = ctx.r.assign(a, reg_type=reg_type)
+  src_b = ctx.r.assign(b, excludes=[src_a], reg_type=reg_type)
+  temp_reg, kernel = ctx.r.alloc(excludes=[src_a, src_b], reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
+    if dtypes.is_int(a.dtype): op = "cmp"
+    else: op = "fcmp"
     return [
-	f"fcmp {src_a}, {src_b}",   # Compare a and b
+	f"{op} {src_a}, {src_b}",   # Compare a and b
 	f"cset {dst}, mi"            # Set if less (mi = minus/Negative flag)
     ]
   else:
-    cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
-    mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
+    if dtypes.is_int(a.dtype):
+      mov_op = "mov"
+      cmp_op = "test"
+    else:
+      cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
+      mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
     return [
       f"xor {dst}, {dst}",
       f"{mov_op} {temp_reg}, {src_a}",
@@ -451,18 +477,23 @@ def float_cmplt(ctx, x, a, b):
     ]
 
 def _where(ctx, x):
+  if dtypes.is_int(x.dtype): reg_type = IReg
+  else: reg_type = FReg
   cond, t, f = x.src
-  _dst = ctx.r.assign(x, reg_type=FReg)
+  _dst = ctx.r.assign(x, reg_type=reg_type)
   _cond = ctx.r.assign(cond, reg_type=IReg)
-  _t = ctx.r.assign(t, reg_type=FReg, excludes=[_dst])
-  _f = ctx.r.assign(f, reg_type=FReg, excludes=[_t, _dst])
+  _t = ctx.r.assign(t, reg_type=reg_type, excludes=[_dst])
+  _f = ctx.r.assign(f, reg_type=reg_type, excludes=[_t, _dst])
   if Arch.arm:
+    if dtypes.is_int(x.dtype): op = "csel"
+    else: op = "fcsel"
     return [
 	f"cmp {_cond}, #0",          # Test condition ≠0
-	f"fcsel {_dst}, {_t}, {_f}, ne"  # Select _t if true, _f if false
+	f"{op} {_dst}, {_t}, {_f}, ne"  # Select _t if true, _f if false
     ]
   else:
-    mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
+    if dtypes.is_int(x.dtype): mov_op = "mov"
+    else: mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
     return [
       f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
       f"jz .f_case_{ctx.r.i}", #jump if ZF=1 => condition is false
@@ -474,8 +505,8 @@ def _where(ctx, x):
     ]
 
 complex_rewrites = PatternMatcher([
-  (UPat(Ops.CMPLT, name="x", src=(UPat(dtype=dtypes.floats, name="a"),
-                                  UPat(dtype=dtypes.floats, name="b"))),
+  (UPat(Ops.CMPLT, name="x", src=(UPat(name="a"),
+                                  UPat(name="b"))),
    float_cmplt),
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.ASSIGN, name="x"), assign),
@@ -484,7 +515,7 @@ def _where(ctx, x):
   (UPat(Ops.ENDRANGE, name="x"), endrange),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(dtype=dtypes.floats, name="a"),)), float_to_bool),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])
 x86_rewrite = PatternMatcher([
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),

From 0aadd395bd0fcd084a9881aecace96c0c65e602a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 18:14:58 +0800
Subject: [PATCH 019/188] abs int32 works

---
 test/test_ops_2.py       |  5 +++-
 tinygrad/renderer/asm.py | 54 +++++++++++++++++++++++++++-------------
 2 files changed, 41 insertions(+), 18 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index fbcc48d998e4c..9b732e143b1b3 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -102,7 +102,10 @@ def _test_abs(self, data, dtype):
 
   def test_abs_f32(self): self._test_abs([0, -1, 2, -4], dtypes.float32)
   def test_abs_f64(self): self._test_abs([0, -1, 2, -4], dtypes.float64)
-  def test_abs_i32(self): self._test_abs([0, -1, 2, -4], dtypes.int32)
+  def test_abs_i32(self):
+    self._test_abs([-1, 0, 2, -4], dtypes.int32)
+  def test_abs_i32_noopt(self):
+    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.int32)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 6f40ffbd03f67..20b15a57f5925 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -181,7 +181,9 @@ def extend_kernel(self, l: list[str]):
     self.kernel.extend(l)
 
   def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
-            exclude_regs: list[RegBase]=[]) -> tuple[RegBase, list[str]]:
+            exclude_regs: list[RegBase]=[],
+            debug:bool=False
+            ) -> tuple[RegBase, list[str]]:
     if reg_type is not None:
       pool = self.pools[reg_type]
       if len(pool):
@@ -195,6 +197,8 @@ def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
           if var.reg is not None and u not in excludes and u not in self.reserved:
             vars_in_regs.append(var)
         if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
+        if debug:
+          print(f"{vars_in_regs=}")
         sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
         last_ending_var, *_ = sorted_vars
         self.move_var_to_stack(last_ending_var)
@@ -229,18 +233,25 @@ def save_var_to_stack(self, v: Variable):
 
   def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
              reg_type: Optional[type[RegBase]]=IReg,
+             debug:bool=False,
              ) -> RegBase:
+    if debug:
+      print(f"\nassigning {_key=}")
+      print(f"{excludes=}")
+      print(f"{reg_type=}")
+      print("")
     if _key not in self.uops:
       raise Exception("Attempting to access a non-existent variable, maybe expired?")
     var = self.uops[_key]
     if var.reg is not None:
       return var.reg
-    reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type)
+    reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
       self.extend_kernel(var.load(reg, "stack"))
     if reserve: self.reserved[_key] = 1
     var.reg = reg
     assert var.reg is not None
+    print(f"{reg=}\n")
     return reg
   def assign_i32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
@@ -421,9 +432,11 @@ def to_bool(ctx, x, a):
   else:
     reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
-  src = ctx.r.assign(a, reg_type=reg_type)
-  temp_reg, _ = ctx.r.alloc(excludes=[src], reg_type=reg_type)
+  exclude_dst_reg = [x] if reg_type == IReg else []
+  src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
+  temp_reg, _ = ctx.r.alloc(excludes=[a]+exclude_dst_reg, reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
+  print(f"regs: {dst=} {src=} {temp_reg=}")
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       op = "cmp"
@@ -435,7 +448,7 @@ def to_bool(ctx, x, a):
     ]
   else:
     if dtypes.is_int(a.dtype):
-      test_op = "test"
+      test_op = "cmp"
       reset_op = "xor"
     else:
       reset_op = "por"
@@ -448,12 +461,15 @@ def to_bool(ctx, x, a):
     ]
 
 def float_cmplt(ctx, x, a, b):
+  print(f"\033[31m{ctx.r.pools[IReg]=}\033[0m")
   if dtypes.is_int(a.dtype): reg_type = IReg
   else: reg_type = FReg
-  dst = ctx.r.assign(x, reg_type=IReg)
-  src_a = ctx.r.assign(a, reg_type=reg_type)
-  src_b = ctx.r.assign(b, excludes=[src_a], reg_type=reg_type)
-  temp_reg, kernel = ctx.r.alloc(excludes=[src_a, src_b], reg_type=reg_type)
+  dst = ctx.r.assign(x, reg_type=IReg, debug=True)
+  exclude_dst = [x] if reg_type == IReg else []
+  src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst, debug=True)
+  src_b = ctx.r.assign(b, excludes=[a] + exclude_dst, reg_type=reg_type, debug=True)
+  temp_reg, kernel = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type, debug=True)
+  print(f"\033[31mregs: {dst=} {src_a=} {src_b=}\033[0m")
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype): op = "cmp"
@@ -463,27 +479,31 @@ def float_cmplt(ctx, x, a, b):
 	f"cset {dst}, mi"            # Set if less (mi = minus/Negative flag)
     ]
   else:
+    size = a.dtype.itemsize
     if dtypes.is_int(a.dtype):
       mov_op = "mov"
-      cmp_op = "test"
+      cmp_op = "cmp"
+      set_op = "setl"
     else:
-      cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
+      cmp_op = "comiss" if a.dtype.itemsize == 4 else "comisd"
       mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
+      set_op = "setb"
     return [
       f"xor {dst}, {dst}",
-      f"{mov_op} {temp_reg}, {src_a}",
-      f"{cmp_op} {temp_reg}, {src_b}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-      f"setb {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
     ]
 
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
   else: reg_type = FReg
   cond, t, f = x.src
-  _dst = ctx.r.assign(x, reg_type=reg_type)
   _cond = ctx.r.assign(cond, reg_type=IReg)
-  _t = ctx.r.assign(t, reg_type=reg_type, excludes=[_dst])
-  _f = ctx.r.assign(f, reg_type=reg_type, excludes=[_t, _dst])
+  exclude_cond = [cond] if reg_type == IReg else []
+  _dst = ctx.r.assign(x, reg_type=reg_type, excludes=exclude_cond)
+  _t = ctx.r.assign(t, reg_type=reg_type, excludes=[x]+exclude_cond)
+  _f = ctx.r.assign(f, reg_type=reg_type, excludes=[t, x]+exclude_cond)
   if Arch.arm:
     if dtypes.is_int(x.dtype): op = "csel"
     else: op = "fcsel"

From 0f18ff4541fcbb04d8b4e0ba27d2f6bda8eb8077 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 23:15:09 +0800
Subject: [PATCH 020/188] just f64 failing only in python

---
 test/test_ops_2.py       |  6 ++++--
 tinygrad/renderer/asm.py | 17 +++++++++--------
 2 files changed, 13 insertions(+), 10 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 9b732e143b1b3..ab9d699d422a2 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -100,8 +100,10 @@ def _test_abs(self, data, dtype):
     a = Tensor(data,  dtype=dtype, device="asm") 
     np.testing.assert_equal(a.abs().numpy(), np.abs(np.array(data).astype(_to_np_dtype(dtype))))
 
-  def test_abs_f32(self): self._test_abs([0, -1, 2, -4], dtypes.float32)
-  def test_abs_f64(self): self._test_abs([0, -1, 2, -4], dtypes.float64)
+  def test_abs_f32(self): self._test_abs([-1, 0, 2, -4], dtypes.float32)
+  def test_abs_f64(self): self._test_abs([-1, 0, 2, -4], dtypes.float64)
+  def test_abs_f64_noopt(self):
+    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.float64)
   def test_abs_i32(self):
     self._test_abs([-1, 0, 2, -4], dtypes.int32)
   def test_abs_i32_noopt(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 20b15a57f5925..49c63c9232db8 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -251,7 +251,6 @@ def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
     if reserve: self.reserved[_key] = 1
     var.reg = reg
     assert var.reg is not None
-    print(f"{reg=}\n")
     return reg
   def assign_i32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
@@ -439,12 +438,12 @@ def to_bool(ctx, x, a):
   print(f"regs: {dst=} {src=} {temp_reg=}")
   if Arch.arm:
     if dtypes.is_int(a.dtype):
-      op = "cmp"
+      cmp = f"cmp {src}, #0"
     else:
-      op = "fcmp"
+      cmp = f"fcmp {src}, #0.0"
     return [
-	f"{op} {src}, #0",    # Compare float with 0.0
-	f"cset {dst}, ne"       # Set dst=1 if not equal, else 0
+      cmp,
+      f"cset {dst}, ne"       # Set dst=1 if not equal, else 0
     ]
   else:
     if dtypes.is_int(a.dtype):
@@ -472,11 +471,12 @@ def float_cmplt(ctx, x, a, b):
   print(f"\033[31mregs: {dst=} {src_a=} {src_b=}\033[0m")
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
+    size = a.dtype.itemsize
     if dtypes.is_int(a.dtype): op = "cmp"
     else: op = "fcmp"
     return [
-	f"{op} {src_a}, {src_b}",   # Compare a and b
-	f"cset {dst}, mi"            # Set if less (mi = minus/Negative flag)
+	f"{op} {src_a.render(size)}, {src_b.render(size)}",   # Compare a and b
+	f"cset {dst}, lt"            # Set if less (mi = minus/Negative flag)
     ]
   else:
     size = a.dtype.itemsize
@@ -507,9 +507,10 @@ def _where(ctx, x):
   if Arch.arm:
     if dtypes.is_int(x.dtype): op = "csel"
     else: op = "fcsel"
+    size=x.dtype.itemsize
     return [
 	f"cmp {_cond}, #0",          # Test condition ≠0
-	f"{op} {_dst}, {_t}, {_f}, ne"  # Select _t if true, _f if false
+	f"{op} {_dst.render(size)}, {_t.render(size)}, {_f.render(size)}, ne"  # Select _t if true, _f if false
     ]
   else:
     if dtypes.is_int(x.dtype): mov_op = "mov"

From b1ffae550836c6e165c397c0050b23ef0e72f4f3 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 18 Jul 2025 23:28:30 +0800
Subject: [PATCH 021/188] 8 byte alignment in data

---
 test/test_ops_2.py       | 6 ++++--
 tinygrad/renderer/asm.py | 2 +-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index ab9d699d422a2..5be499e431353 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -101,9 +101,11 @@ def _test_abs(self, data, dtype):
     np.testing.assert_equal(a.abs().numpy(), np.abs(np.array(data).astype(_to_np_dtype(dtype))))
 
   def test_abs_f32(self): self._test_abs([-1, 0, 2, -4], dtypes.float32)
-  def test_abs_f64(self): self._test_abs([-1, 0, 2, -4], dtypes.float64)
+  def test_abs_f64(self):
+    self._test_abs([-1, 0, 2, -4], dtypes.float64)
   def test_abs_f64_noopt(self):
-    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.float64)
+    with Context(NOOPT=1):
+      self._test_abs([-1, 0, 2, -4], dtypes.float64)
   def test_abs_i32(self):
     self._test_abs([-1, 0, 2, -4], dtypes.int32)
   def test_abs_i32_noopt(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 49c63c9232db8..c29eb63cac0a3 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -713,7 +713,7 @@ def render(self, uops:List[UOp]) -> str:
     mem_data = [f"{a}: {b}" for a,b in mem]
     data_section = [
       ".section .data",
-      ".p2align 2",
+      ".p2align 3",
       *mem_data
     ]
     kernel = [

From 81058a8e216920c9990f932f79c1083faab26b94 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 19 Jul 2025 08:40:10 +0800
Subject: [PATCH 022/188] int64 and movsd fix

---
 test/test_ops_2.py       | 12 +++++++-----
 tinygrad/renderer/asm.py |  4 ++--
 2 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 5be499e431353..49c5868cca6e3 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -100,16 +100,18 @@ def _test_abs(self, data, dtype):
     a = Tensor(data,  dtype=dtype, device="asm") 
     np.testing.assert_equal(a.abs().numpy(), np.abs(np.array(data).astype(_to_np_dtype(dtype))))
 
-  def test_abs_f32(self): self._test_abs([-1, 0, 2, -4], dtypes.float32)
+  def test_abs_f32(self):
+    self._test_abs([-1, 0, 2, -4], dtypes.float32)
+    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.float32)
   def test_abs_f64(self):
     self._test_abs([-1, 0, 2, -4], dtypes.float64)
-  def test_abs_f64_noopt(self):
-    with Context(NOOPT=1):
-      self._test_abs([-1, 0, 2, -4], dtypes.float64)
+    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.float64)
   def test_abs_i32(self):
     self._test_abs([-1, 0, 2, -4], dtypes.int32)
-  def test_abs_i32_noopt(self):
     with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.int32)
+  def test_abs_i64(self):
+    self._test_abs([-1, 0, 2, -4], dtypes.int64)
+    with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.int64)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index c29eb63cac0a3..c26a14a0e821c 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -122,7 +122,7 @@ def store(self, dst: str) -> list[str]:
         if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
           op = "mov"
         else:
-          op = "movss" if self.uop.dtype.itemsize == 4 else "movdd"
+          op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
         return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
     else:
       raise Exception("not implemented")
@@ -141,7 +141,7 @@ def load(self, reg: RegBase, src: str) -> list[str]:
         if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
           op = "mov"
         else:
-          op = "movss" if self.uop.dtype.itemsize == 4 else "movdd"
+          op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
         return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
     else: raise Exception("not implemented")
 

From 38d399e766d730ef12caed3e04d6c7c13cc0d800 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 19 Jul 2025 19:54:30 +0800
Subject: [PATCH 023/188] test acos

---
 test/test_ops_2.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 49c5868cca6e3..39fa2ce003066 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -113,6 +113,10 @@ def test_abs_i64(self):
     self._test_abs([-1, 0, 2, -4], dtypes.int64)
     with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.int64)
 
+  def test_acos(self):
+    with Context(NOOPT=1):
+      helper_test_op([(2,2)], lambda x: x.acos(), low=-1, high=1)
+
   @unittest.skip("")
   def test_sum(self):
     print(Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy())

From e62755eefb5725f9064738be3e6e24e0a73282a8 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 10:19:38 +0800
Subject: [PATCH 024/188] acos works

---
 tinygrad/renderer/asm.py | 43 +++++++++++++++++++++++++++++++++++++++-
 1 file changed, 42 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index c26a14a0e821c..1d470de449588 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -321,9 +321,11 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.ASSIGN, ArchType.X86, IReg): "mov",
   (Ops.ASSIGN, ArchType.X86, FReg, 32): "movss",
   (Ops.ASSIGN, ArchType.X86, FReg, 64): "movsd",
+  (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
+  (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
 })
 
-def alu(ctx, x):
+def alu_old(ctx, x):
   dtype = x.src[0].dtype
   reg_type = IReg if dtypes.is_int(dtype) else FReg
   src0 = ctx.r.assign(x.src[0], reg_type=reg_type)
@@ -335,6 +337,8 @@ def alu(ctx, x):
     dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   _src0, _src1, _dst = src0.render(dtype.itemsize), src1.render(dtype.itemsize), dst.render(dtype.itemsize)
+
+  print(f"\033[31m{_dst=} {_src0=} {_src1=}\033[0m")
   if Arch.arm:
     return [f"{operator} {_dst}, {_src0}, {_src1};"]
   else:
@@ -345,6 +349,40 @@ def alu(ctx, x):
       return [f"{_mov} {_dst}, {_src0}",
         f"{operator} {_dst}, {_src1}",]
 
+def alu(ctx, x):
+  dtype = x.src[0].dtype
+  reg_type = IReg if dtypes.is_int(dtype) else FReg
+  src_regs = []
+  excludes = []
+  for _src in x.src:
+    _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
+    excludes.append(_src)
+    src_regs.append(_reg)
+  if ctx.r.uops[x.src[0]].end == ctx.r.i:
+    ctx.r.share(x, x.src[0])
+    dst = src_regs[0]
+  else:
+    dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
+  operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
+  _dst = dst.render(dtype.itemsize)
+  src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]
+  if Arch.arm:
+    return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
+  else:
+    _mov = "mov" if dtypes.is_int(dtype) else "movss" 
+    if dst == src_regs[0] and len(src_regs_str) == 2:
+      return [f"{operator} {_dst}, {src_regs_str[1]}"]
+    elif len(src_regs_str) == 2:
+      return [f"{_mov} {_dst}, {src_regs_str[0]}",
+        f"{operator} {_dst}, {src_regs_str[1]}",]
+    elif _dst == src_regs_str[0] and len(src_regs_str) == 1:
+      return [f"{operator} {_dst}, {src_regs_str[0]}"]
+    elif len(src_regs_str) == 1:
+      return [f"{operator} {_dst}, {src_regs_str[0]}"]
+    else:
+      raise Exception("ALU error handling srcs")
+
+
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
   _acc = ctx.r.uops[acc].reg.render(dtype.itemsize)
@@ -612,6 +650,9 @@ class AsmRenderer(Renderer):
   has_shared = False
   global_max = None
   extra_matcher = extra_matcher
+  code_for_op = {
+    Ops.SQRT: lambda:None
+  }
 
   def __init__(self) -> None:
     super().__init__()

From c58fa1ac62b47a18e5f6d71deb188970916bb426 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 11:27:30 +0800
Subject: [PATCH 025/188] test acos with unroll, disable float4 in clang

---
 test/test_ops_2.py          | 4 +++-
 tinygrad/renderer/cstyle.py | 1 +
 2 files changed, 4 insertions(+), 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 39fa2ce003066..aafa2e4a92ee7 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -113,9 +113,11 @@ def test_abs_i64(self):
     self._test_abs([-1, 0, 2, -4], dtypes.int64)
     with Context(NOOPT=1): self._test_abs([-1, 0, 2, -4], dtypes.int64)
 
-  def test_acos(self):
+  def test_acos_noopt(self):
     with Context(NOOPT=1):
       helper_test_op([(2,2)], lambda x: x.acos(), low=-1, high=1)
+  def test_acos(self):
+    helper_test_op([(4,)], lambda x: x.acos(), low=-1, high=1)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/cstyle.py b/tinygrad/renderer/cstyle.py
index 9766e2d6e4382..09aff2516297e 100644
--- a/tinygrad/renderer/cstyle.py
+++ b/tinygrad/renderer/cstyle.py
@@ -180,6 +180,7 @@ def _render(self, uops:list[UOp]) -> tuple[str, list[str], list[tuple[str,tuple[
   def render(self, uops:list[UOp]) -> str: return self.render_kernel(*self._render(uops), uops)
 
 class ClangRenderer(CStyleLanguage):
+  supports_float4 = False
   device = "CPU"
   float4 = "(float4)"
   float4_style = ('{', '}')

From 089526e47729a8b647d6012c49bc75bee095fbbe Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 14:15:47 +0800
Subject: [PATCH 026/188] float reg spill

---
 tinygrad/renderer/asm.py | 50 +++++++++++++++++++++++++++++++++++++---
 1 file changed, 47 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 1d470de449588..9ca0c161db4a6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -190,11 +190,10 @@ def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
         while (reg:=pool.pop(0)) in self.do_not_use: pass
         return reg, []
       else:
-        if reg_type is FReg:
-          raise Exception("Not sure how to spill float register yet")
         vars_in_regs = []
         for u, var in self.uops.items():
-          if var.reg is not None and u not in excludes and u not in self.reserved:
+          if var.reg is not None and u not in excludes and u not in self.reserved \
+            and isinstance(var.reg, reg_type):
             vars_in_regs.append(var)
         if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
         if debug:
@@ -886,6 +885,51 @@ def test_spill_with_stack_str(self):
     assert self.a.stack_size == 8
     assert self.a.uops[self.uop2].stack == 8
 
+class TestAllocatorSpillFloat(unittest.TestCase):
+  def setUp(self):
+    self.a = Allocator(num_ireg=2, num_freg=2)
+    uop1 = UOp(Ops.CONST, dtype=dtypes.float32, arg=1)
+    uop2 = UOp(Ops.CONST, dtype=dtypes.float32, arg=2)
+    uop3 = UOp(Ops.CONST, dtype=dtypes.float32, arg=3)
+    self.uop1, self.uop2, self.uop3 = uop1, uop2, uop3
+    self.a.uops[uop1] = Variable(uop1, 0, 9)
+    self.a.uops[uop2] = Variable(uop2, 0, 10)
+    self.a.uops[uop3] = Variable(uop3, 0, 11)
+    self.a.assign(uop1, reg_type=FReg)
+    self.a.assign(uop2, reg_type=FReg)
+  def tearDown(self): del self.uop1, self.uop2, self.uop3, self.a
+
+  def test_spill(self):
+    reg = self.a.assign(self.uop3, reg_type=FReg)
+    kernel = self.a.flush_kernel()
+    assert reg == FReg(1)
+    assert self.a.uops[self.uop1].reg   is not None
+    assert self.a.uops[self.uop1].stack is None
+
+    assert self.a.uops[self.uop2].reg   is None
+    assert self.a.uops[self.uop2].stack is not None
+
+    assert self.a.uops[self.uop3].reg   is not None
+    assert self.a.uops[self.uop3].stack is None
+    assert len(kernel) == 1# and kernel[0].startswith("str")
+
+  def test_spill_with_stack_load(self):
+    self.a.uops[self.uop2].stack = 0
+    self.a.uops[self.uop3].stack = 8
+    self.a.stack_size = 16
+    reg = self.a.assign(self.uop3, reg_type=FReg)
+    kernel = self.a.flush_kernel()
+    assert self.a.uops[self.uop2].stack == 0
+    assert self.a.uops[self.uop3].stack == 8
+    assert len(kernel) == 2# and kernel[1].startswith("ldr")
+    assert self.a.stack_size == 16
+
+  def test_spill_with_stack_str(self):
+    assert self.a.stack_size == 0
+    self.a.assign(self.uop3, reg_type=FReg)
+    assert self.a.stack_size == 16
+    assert self.a.uops[self.uop2].stack == 16
+
 class TestAllocatorStackAll(unittest.TestCase):
   """
   Ops.RANGE and Ops.DEFINE_REG's Variable could change, the change need to 

From de2d8e832ecddad318085cfeedadab79259e3132 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 14:31:07 +0800
Subject: [PATCH 027/188] full helper for testing backward as well

---
 test/test_ops_2.py | 37 +++++++++++++++++++++++++++++++++++--
 1 file changed, 35 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index aafa2e4a92ee7..6c11d161b8a5c 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -3,25 +3,34 @@
 from typing import List, Callable
 import warnings
 from tinygrad.helpers import DISABLE_COMPILER_CACHE, getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, DEVECTORIZE, OSX, Context
+from tinygrad.helpers import getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, OSX, AMD_LLVM
 from tinygrad import Tensor, Device, dtypes
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
+FORWARD_ONLY = getenv("FORWARD_ONLY", 0)
+PRINT_TENSORS = getenv("PRINT_TENSORS", 0)
 def helper_test_op(shps, torch_fxn, tinygrad_fxn=None, atol=1e-6, rtol=1e-3, grad_atol=1e-4, grad_rtol=1e-3,
                    forward_only=False, vals=None, low=-2, high=2):
   if tinygrad_fxn is None: tinygrad_fxn = torch_fxn
-  ts, tst = prepare_test_op(low, high, shps, vals, forward_only)
+  ts, tst = prepare_test_op2(low, high, shps, vals, forward_only)
 
   st = time.monotonic()
   out = torch_fxn(*ts)
   torch_fp = time.monotonic() - st
 
+  # move inputs to a different device, test the device of intermediate tensors are correct
+  #if mt:=getenv("MOVE_TENSOR", ""): for t in tst: t.to_(mt)
+
   st = time.monotonic()
   ret = tinygrad_fxn(*tst).realize()
   tinygrad_fp = time.monotonic() - st
 
   def compare(s, tinygrad_output, torch_output, atol, rtol):
+    if PRINT_TENSORS: print(s, tinygrad_output, torch_output)
     try:
+      assert tinygrad_output.shape == torch_output.shape, f"shape mismatch: tinygrad={tinygrad_output.shape} | torch={torch_output.shape}"
+      assert tinygrad_output.dtype == torch_output.dtype, f"dtype mismatch: tinygrad={tinygrad_output.dtype} | torch={torch_output.dtype}"
       if np.issubdtype(tinygrad_output.dtype, np.floating):
         np.testing.assert_allclose(tinygrad_output, torch_output, atol=atol, rtol=rtol)
       else:
@@ -29,9 +38,30 @@ def compare(s, tinygrad_output, torch_output, atol, rtol):
     except Exception as e:
       raise Exception(f"{s} failed shape {tinygrad_output.shape}: {e}")
 
+  if DEBUG >= 6:
+    np.set_printoptions(linewidth=200, suppress=True)
+    print(ret.numpy())
+    print(out.detach().cpu().numpy())
   compare("forward pass", ret.numpy(), out.detach().cpu().numpy(), atol=atol, rtol=rtol)
 
   torch_fbp, tinygrad_fbp = np.nan, np.nan
+  if not forward_only and not FORWARD_ONLY and ts and tst:
+    st = time.monotonic()
+    torch_grads = torch.autograd.grad(torch_fxn(*ts).sum(), ts)
+    torch_fbp = time.monotonic() - st
+
+    st = time.monotonic()
+    # NOTE: we now have to recompute the forward pass since we realized it
+    tiny_grads = tinygrad_fxn(*tst).sum().gradient(*tst)
+    Tensor.realize(*tiny_grads)
+    tinygrad_fbp = time.monotonic() - st
+
+    for i, (t, torch_grad) in enumerate(zip(tiny_grads, torch_grads)):
+      compare(f"backward pass tensor {i}", t.numpy(), torch_grad.detach().cpu().numpy(), atol=grad_atol, rtol=grad_rtol)
+
+  if not CI:
+    print("\ntesting %40r   torch/tinygrad fp: %.2f / %.2f ms  bp: %.2f / %.2f ms " % \
+          (shps, torch_fp*1000, tinygrad_fp*1000, torch_fbp*1000, tinygrad_fbp*1000), end="")
 
 def prepare_test_op(low, high, shps, vals, forward_only=False):
   if shps is None:
@@ -43,7 +73,7 @@ def prepare_test_op(low, high, shps, vals, forward_only=False):
   for i in range(len(ts)):
     # NOTE: torch default int64 for python ints input
     if ts[i].dtype == torch.int64: ts[i] = ts[i].type(torch.int32)
-  tst = [Tensor(x.detach().cpu().numpy(), requires_grad=(not forward_only)) for x in ts]
+  tst = [Tensor(x.detach().cpu().numpy(), requires_grad=(not forward_only and not FORWARD_ONLY)) for x in ts]
   return ts, tst
 
 
@@ -118,6 +148,9 @@ def test_acos_noopt(self):
       helper_test_op([(2,2)], lambda x: x.acos(), low=-1, high=1)
   def test_acos(self):
     helper_test_op([(4,)], lambda x: x.acos(), low=-1, high=1)
+    helper_test_op([(45,65)], lambda x: x.acos(), low=-1, high=1)
+    helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
+    helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
 
   @unittest.skip("")
   def test_sum(self):

From cfde1ffb465598bc39acb67b3e10b09fdbd1e54f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 14:39:57 +0800
Subject: [PATCH 028/188] recip; nan on backward pass

---
 test/test_ops_2.py       | 12 +++++++++---
 tinygrad/renderer/asm.py |  1 +
 2 files changed, 10 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 6c11d161b8a5c..0cf694c0853a6 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -8,12 +8,16 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
+if getenv("TINY_BACKEND"):
+  import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
+  torch.set_default_device("tiny")
+
 FORWARD_ONLY = getenv("FORWARD_ONLY", 0)
 PRINT_TENSORS = getenv("PRINT_TENSORS", 0)
 def helper_test_op(shps, torch_fxn, tinygrad_fxn=None, atol=1e-6, rtol=1e-3, grad_atol=1e-4, grad_rtol=1e-3,
                    forward_only=False, vals=None, low=-2, high=2):
   if tinygrad_fxn is None: tinygrad_fxn = torch_fxn
-  ts, tst = prepare_test_op2(low, high, shps, vals, forward_only)
+  ts, tst = prepare_test_op(low, high, shps, vals, forward_only)
 
   st = time.monotonic()
   out = torch_fxn(*ts)
@@ -149,8 +153,10 @@ def test_acos_noopt(self):
   def test_acos(self):
     helper_test_op([(4,)], lambda x: x.acos(), low=-1, high=1)
     helper_test_op([(45,65)], lambda x: x.acos(), low=-1, high=1)
-    helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
-    helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
+  def test_acos_large(self):
+    helper_test_op([(20,)], lambda x: x.acos(), low=-300, high=-297)
+    #helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
+    #helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
 
   @unittest.skip("")
   def test_sum(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9ca0c161db4a6..00134461147b7 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -322,6 +322,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.ASSIGN, ArchType.X86, FReg, 64): "movsd",
   (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
+  (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
 })
 
 def alu_old(ctx, x):

From c4a2037f4a2c6815099c819676cfcba02e9a06c9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 14:41:57 +0800
Subject: [PATCH 029/188] forward only for now

---
 test/test_ops.py   | 2 +-
 test/test_ops_2.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 4ff437b41389b..56512f0eacf25 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -14,7 +14,7 @@
 if CI:
   warnings.filterwarnings("ignore", message="Non-empty compiler output encountered")
 
-FORWARD_ONLY = getenv("FORWARD_ONLY", 0)
+FORWARD_ONLY = getenv("FORWARD_ONLY", 1)
 PRINT_TENSORS = getenv("PRINT_TENSORS", 0)
 
 def helper_test_op(shps, torch_fxn, tinygrad_fxn=None, atol=1e-6, rtol=1e-3, grad_atol=1e-4, grad_rtol=1e-3,
diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0cf694c0853a6..7b326ec79304a 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -12,7 +12,7 @@
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 
-FORWARD_ONLY = getenv("FORWARD_ONLY", 0)
+FORWARD_ONLY = getenv("FORWARD_ONLY", 1)
 PRINT_TENSORS = getenv("PRINT_TENSORS", 0)
 def helper_test_op(shps, torch_fxn, tinygrad_fxn=None, atol=1e-6, rtol=1e-3, grad_atol=1e-4, grad_rtol=1e-3,
                    forward_only=False, vals=None, low=-2, high=2):

From 9dc120d1b610085ead4df14cfc0e4f67458ab389 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 14:49:25 +0800
Subject: [PATCH 030/188] cmpne

---
 tinygrad/renderer/asm.py | 25 ++++++++++---------------
 1 file changed, 10 insertions(+), 15 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 00134461147b7..66ba0df1ff269 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -338,7 +338,6 @@ def alu_old(ctx, x):
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   _src0, _src1, _dst = src0.render(dtype.itemsize), src1.render(dtype.itemsize), dst.render(dtype.itemsize)
 
-  print(f"\033[31m{_dst=} {_src0=} {_src1=}\033[0m")
   if Arch.arm:
     return [f"{operator} {_dst}, {_src0}, {_src1};"]
   else:
@@ -473,7 +472,6 @@ def to_bool(ctx, x, a):
   src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
   temp_reg, _ = ctx.r.alloc(excludes=[a]+exclude_dst_reg, reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
-  print(f"regs: {dst=} {src=} {temp_reg=}")
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       cmp = f"cmp {src}, #0"
@@ -497,16 +495,14 @@ def to_bool(ctx, x, a):
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
-def float_cmplt(ctx, x, a, b):
-  print(f"\033[31m{ctx.r.pools[IReg]=}\033[0m")
+def float_cmp(ctx, x, a, b):
   if dtypes.is_int(a.dtype): reg_type = IReg
   else: reg_type = FReg
-  dst = ctx.r.assign(x, reg_type=IReg, debug=True)
+  dst = ctx.r.assign(x, reg_type=IReg)
   exclude_dst = [x] if reg_type == IReg else []
-  src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst, debug=True)
-  src_b = ctx.r.assign(b, excludes=[a] + exclude_dst, reg_type=reg_type, debug=True)
-  temp_reg, kernel = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type, debug=True)
-  print(f"\033[31mregs: {dst=} {src_a=} {src_b=}\033[0m")
+  src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
+  src_b = ctx.r.assign(b, excludes=[a] + exclude_dst, reg_type=reg_type)
+  temp_reg, kernel = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
     size = a.dtype.itemsize
@@ -521,11 +517,11 @@ def float_cmplt(ctx, x, a, b):
     if dtypes.is_int(a.dtype):
       mov_op = "mov"
       cmp_op = "cmp"
-      set_op = "setl"
+      set_op = "setl" if x.op is Ops.CMPLT else "setne"
     else:
       cmp_op = "comiss" if a.dtype.itemsize == 4 else "comisd"
       mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
-      set_op = "setb"
+      set_op = "setb" if x.op is Ops.CMPLT else "setne"
     return [
       f"xor {dst}, {dst}",
       f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
@@ -564,9 +560,9 @@ def _where(ctx, x):
     ]
 
 complex_rewrites = PatternMatcher([
-  (UPat(Ops.CMPLT, name="x", src=(UPat(name="a"),
+  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
-   float_cmplt),
+   float_cmp),
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
@@ -677,8 +673,7 @@ def render(self, uops:List[UOp]) -> str:
     kernel: List[str] = []
     self.uops = uops
     last_use: Dict[UOp, int] = {var:i for i,u in enumerate(uops) for var in (v for v in (u,) + u.src if v.dtype != dtypes.void)}
-    if DEBUG >= 6:
-      print(uops[-1])
+    if DEBUG >= 6: print(uops[-1])
 
     name = "test"
     uop_order = {} 

From f8c9a5df6f13d5224fd25aef10c2d8ce8572a75f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 15:23:46 +0800
Subject: [PATCH 031/188] debug info for clang render

---
 tinygrad/renderer/cstyle.py | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/cstyle.py b/tinygrad/renderer/cstyle.py
index 09aff2516297e..de916f5c3e307 100644
--- a/tinygrad/renderer/cstyle.py
+++ b/tinygrad/renderer/cstyle.py
@@ -3,7 +3,7 @@
 from collections import defaultdict, Counter
 from tinygrad.opt import tc
 from tinygrad.uop.ops import GroupOp, Ops, UOp, PatternMatcher, UPat
-from tinygrad.helpers import strip_parens, getenv, prod, dedup, AMX
+from tinygrad.helpers import strip_parens, getenv, prod, dedup, AMX, DEBUG
 from tinygrad.dtype import ImageDType, dtypes, DType, PtrDType
 from tinygrad.renderer import Renderer
 from tinygrad.codegen.devectorizer import no_vectorized_alu
@@ -135,6 +135,10 @@ def _render(self, uops:list[UOp]) -> tuple[str, list[str], list[tuple[str,tuple[
     c: defaultdict[str, int] = defaultdict(int)
     name = "test"
     for u in uops:
+      if DEBUG>=6:
+        print("\n========")
+        print(u)
+
       if u.op is Ops.SINK:
         if u.arg is not None: name = u.arg.function_name
         continue
@@ -159,6 +163,8 @@ def _render(self, uops:list[UOp]) -> tuple[str, list[str], list[tuple[str,tuple[
         r[u] = f"{prefix}{c[prefix]}"
 
       l = cast(str, self.string_rewrite.rewrite(u, ctx=self))
+
+      if DEBUG>=6: print(f"\033[32m{l}\033[0m")
       assert l is not None, f"failed to render {u.op} {u.dtype} {[(x.op,x.dtype) for x in u.src]} {u.arg}"
 
       if u.op in {Ops.ENDIF, Ops.ENDRANGE}: depth -= 1
@@ -173,6 +179,7 @@ def _render(self, uops:list[UOp]) -> tuple[str, list[str], list[tuple[str,tuple[
         kernel.append("  "*depth + l)
         if prefix: c[prefix] += 1  # if it was used, increment
       if u.op in {Ops.IF, Ops.RANGE}: depth += 1
+
     del self.r
 
     # NOTE: this relies on bufs dict preserving order

From d255f747062451b4904ae538f38f5b0bb7a98c21 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 15:23:55 +0800
Subject: [PATCH 032/188] x86 bitcast

---
 tinygrad/renderer/asm.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 66ba0df1ff269..27ca49c308ddd 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -602,6 +602,9 @@ def _where(ctx, x):
      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movsd {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
+
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"movd {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From 3dc258706b7c5f20e8e76261e78b06fdc8b792fa Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 20 Jul 2025 21:30:23 +0800
Subject: [PATCH 033/188] test assign specific reg

---
 tinygrad/renderer/asm.py | 27 +++++++++++++++++++++++++++
 1 file changed, 27 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 27ca49c308ddd..9c0a5dc0e973b 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -259,6 +259,13 @@ def assign_f32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=FReg).render32()
   def assign_f64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=FReg).render64()
+  def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
+    pool = self.pools[type(reg)]
+    var = self.uops[_key]
+    if reg in pool and var.reg is None:
+      var.reg = reg
+      return
+    print(f"{pool=}")
   
   def release(self, uop: UOp): del self.reserved[uop] 
 
@@ -323,6 +330,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
   (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
+  (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
 })
 
 def alu_old(ctx, x):
@@ -1325,3 +1333,22 @@ def test_arm_index(self):
       x3:=UOp(Ops.CONST, dtypes.int, arg=None, src=()),))
     self.render(a, ["add x2, x0, x1, lsl #2"]);
 
+
+class TestAllocatorAssignReg(unittest.TestCase):
+  def setUp(self):
+    self.a = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, arg=1)
+    self.var1 = Variable(self.uop1, 0, 10)
+    self.a.uops[self.uop1] = self.var1
+
+  def test_assign_ireg(self):
+    self.a.assign_reg(IReg(0), self.uop1)
+    ret = self.a.flush_kernel()
+    assert len(ret) == 0
+    assert self.var1.reg == IReg(0)
+
+  def test_assign_freg(self):
+    self.a.assign_reg(FReg(0), self.uop1)
+    ret = self.a.flush_kernel()
+    assert len(ret) == 0
+    assert self.var1.reg == FReg(0)

From 3b32531008fe7d3d6a7d763b2bf6a973423a350f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 21 Jul 2025 14:15:05 +0800
Subject: [PATCH 034/188] assign a specific reg

---
 tinygrad/renderer/asm.py | 138 +++++++++++++++++++++++++++++++++++----
 1 file changed, 126 insertions(+), 12 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9c0a5dc0e973b..e4b21a25ab73b 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -145,6 +145,24 @@ def load(self, reg: RegBase, src: str) -> list[str]:
         return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
     else: raise Exception("not implemented")
 
+  def copy(self, dst: RegBase) -> list[str]:
+    assert self.reg is not None
+    if Arch.arm:
+      raise Exception("not implemented")
+    else:
+      if isinstance(self.reg, IReg) and isinstance(dst, IReg):
+        op = "mov"
+      elif isinstance(self.reg, FReg) and isinstance(dst, FReg):
+        if self.uop.dtype.itemsize == 4:
+          op = "movss"
+        else:
+          op = "movsd"
+      else:
+        op = "movq"
+    return [f"{op} {dst.render64()}, {self.reg.render64()}"]
+
+
+
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int = 0):
     self.pool: list[RegBase] = [IReg(i) for i in range(num_ireg-1, -1, -1)]
@@ -262,10 +280,18 @@ def assign_f64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
   def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
     pool = self.pools[type(reg)]
     var = self.uops[_key]
-    if reg in pool and var.reg is None:
+    if reg in pool:
+      if var.reg is not None: self.extend_kernel(var.copy(reg))
+      var.reg = reg
+      pool.pop(pool.index(reg))
+    else:
+      vars = [v for v in self.uops.values() if v.reg == reg]
+      assert len(vars) == 1
+      var2 = vars[0]
+      self.save_var_to_stack(var2)
+      var2.reg = None
+      if var.reg is not None: self.extend_kernel(var.copy(reg))
       var.reg = reg
-      return
-    print(f"{pool=}")
   
   def release(self, uop: UOp): del self.reserved[uop] 
 
@@ -1335,20 +1361,108 @@ def test_arm_index(self):
 
 
 class TestAllocatorAssignReg(unittest.TestCase):
-  def setUp(self):
+  def _test_assign_available(self, reg: RegBase):
     self.a = Allocator(3, 3)
     self.uop1 = UOp(Ops.CONST, arg=1)
     self.var1 = Variable(self.uop1, 0, 10)
     self.a.uops[self.uop1] = self.var1
-
-  def test_assign_ireg(self):
-    self.a.assign_reg(IReg(0), self.uop1)
+    self.a.assign_reg(reg, self.uop1)
     ret = self.a.flush_kernel()
     assert len(ret) == 0
-    assert self.var1.reg == IReg(0)
+    assert self.var1.reg == reg
+    assert reg not in self.a.pools[type(reg)]
+
+  def test_assign_ireg(self): self._test_assign_available(IReg(0))
+  def test_assign_freg(self): self._test_assign_available(FReg(0))
 
-  def test_assign_freg(self):
-    self.a.assign_reg(FReg(0), self.uop1)
+  def _test_assign_occupied(self, dtype: DType, reg: RegBase, reg_old: RegBase, k: list[str]):
+    self.a = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, arg=1, dtype=dtype)
+    self.var1 = Variable(self.uop1, 0, 10)
+    self.uop2 = UOp(Ops.CONST, arg=2, dtype=dtype)
+    self.var2 = Variable(self.uop2, 0, 10)
+    self.a.uops[self.uop1] = self.var1
+    self.a.uops[self.uop2] = self.var2
+    self.var1.reg = reg_old
+    self.a.assign_reg(reg, self.uop1)
     ret = self.a.flush_kernel()
-    assert len(ret) == 0
-    assert self.var1.reg == FReg(0)
+    assert ret == k
+    assert self.var1.reg == reg
+
+  def test_assign_occupied_ireg(self):
+    ret = [f"mov rax, rcx"] if Arch.x86 else ["mov r0, r1"]
+    self._test_assign_occupied(dtypes.int, IReg(0), IReg(1), ret)
+
+  def test_assign_occupied_freg(self):
+    ret = [f"movss xmm0, xmm1"] if Arch.x86 else [f"fmov d0, d1"]
+    self._test_assign_occupied(dtypes.float, FReg(0), FReg(1), ret)
+
+  def _unassigned_var_spill_reg(self, dtype: DType, reg: RegBase, stack: int, k: list[str]):
+    self.a = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, arg=1, dtype=dtype)
+    self.var1 = Variable(self.uop1, 0, 10)
+    self.uop2 = UOp(Ops.CONST, arg=2, dtype=dtype)
+    self.var2 = Variable(self.uop2, 0, 10)
+    self.a.uops[self.uop1] = self.var1
+    self.a.uops[self.uop2] = self.var2
+    self.a.assign_reg(reg, self.uop2)
+    self.a.flush_kernel()
+    self.a.assign_reg(reg, self.uop1)
+    ret = self.a.flush_kernel()
+    assert ret == k
+    assert self.var1.reg == reg
+    assert self.var2.reg == None
+    assert self.var2.stack == stack
+
+  def test_unassigned_var_spill_reg_i32(self):
+    k = ["mov [rbp - 8], rax"] if Arch.x86 else []
+    self._unassigned_var_spill_reg(dtypes.int, IReg(0), 8, k)
+
+  def test_unassigned_var_spill_reg_i64(self):
+    k = ["mov [rbp - 8], rax"] if Arch.x86 else []
+    self._unassigned_var_spill_reg(dtypes.int64, IReg(0), 8, k)
+
+  def test_unassigned_var_spill_reg_f32(self):
+    k = ["movss [rbp - 16], xmm0"] if Arch.x86 else []
+    self._unassigned_var_spill_reg(dtypes.float32, FReg(0), 16, k)
+
+  def test_unassigned_var_spill_reg_f64(self):
+    k = ["movsd [rbp - 16], xmm0"] if Arch.x86 else []
+    self._unassigned_var_spill_reg(dtypes.float64, FReg(0), 16, k)
+
+  def _assigned_var_spill_reg(self, dtype: DType, reg: RegBase,
+                              reg_old: RegBase,
+                              stack: int,
+                              k: list[str]):
+    self.a = Allocator(3, 3)
+    self.uop1 = UOp(Ops.CONST, arg=1, dtype=dtype)
+    self.var1 = Variable(self.uop1, 0, 10)
+    self.uop2 = UOp(Ops.CONST, arg=2, dtype=dtype)
+    self.var2 = Variable(self.uop2, 0, 10)
+    self.a.uops[self.uop1] = self.var1
+    self.a.uops[self.uop2] = self.var2
+    self.a.assign_reg(reg_old, self.uop1)
+    self.a.assign_reg(reg, self.uop2)
+    self.a.flush_kernel()
+    self.a.assign_reg(reg, self.uop1)
+    ret = self.a.flush_kernel()
+    assert ret == k
+    assert self.var1.reg == reg
+    assert self.var2.reg == None
+    assert self.var2.stack == stack
+
+  def test_assigned_var_spill_reg_i32(self):
+    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else []
+    self._assigned_var_spill_reg(dtypes.int, IReg(0), IReg(1), 8, k)
+
+  def test_assigned_var_spill_reg_i64(self):
+    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else []
+    self._assigned_var_spill_reg(dtypes.int64, IReg(0), IReg(1), 8, k)
+
+  def test_assigned_var_spill_reg_f32(self):
+    k = ["movss [rbp - 16], xmm0", "movss xmm0, xmm1"] if Arch.x86 else []
+    self._assigned_var_spill_reg(dtypes.float32, FReg(0), FReg(1), 16, k)
+
+  def test_assigned_var_spill_reg_f64(self):
+    k = ["movsd [rbp - 16], xmm0", "movsd xmm0, xmm1"] if Arch.x86 else []
+    self._assigned_var_spill_reg(dtypes.float64, FReg(0), FReg(1), 16, k)

From 28d3019a813b5310bbc3129e1ef62e91302481e0 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 21 Jul 2025 14:26:26 +0800
Subject: [PATCH 035/188] idiv x86 works, incorrect results

---
 test/test_ops_2.py       |  3 +++
 tinygrad/renderer/asm.py | 20 +++++++++++++++++++-
 2 files changed, 22 insertions(+), 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 7b326ec79304a..af5b8c7c52d59 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -317,6 +317,9 @@ def test_matmul_f32_speed(self):
         with Context(DEBUG=6):
           c_asm = speedrun("asm", a.to("asm").dot(b.to("asm")), repeats)
         np.testing.assert_equal(c_asm, c_cpu, )
+  def test_idiv(self):
+    helper_test_op(None, functools.partial(torch.div, rounding_mode="trunc"), Tensor.idiv, forward_only=True,
+                   vals=[[-4, 7, 5, 4, -7, 8], [2, -3, 8, -2, 3, 5]])
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index e4b21a25ab73b..b444e7da8a821 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -593,16 +593,34 @@ def _where(ctx, x):
       f".end_{ctx.r.i}:",
     ]
 
+def idiv(ctx, x):
+  dividend, divisor = x.src
+  _dividend = ctx.r.assign_reg(IReg(0), dividend)
+  _divisor = ctx.r.assign_reg(IReg(3), divisor)
+  if Arch.x86:
+    _mov = ctx.r.flush_kernel()
+    ctx.r.assign_reg(IReg(0), x)
+    _mov2 = ctx.r.flush_kernel()
+    ret = [
+      *_mov,
+      "cdq",
+      "idiv ebx",
+      *_mov2
+    ]
+    print(f"{ret=}")
+    return ret
+
 complex_rewrites = PatternMatcher([
   (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
    float_cmp),
   (UPat(Ops.WHERE, name="x"), _where),
+  (UPat(Ops.IDIV, name="x"), idiv),
+  (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
   (UPat(Ops.RANGE, name="x"), _range),
   (UPat(Ops.ENDRANGE, name="x"), endrange),
-  (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])

From c63f48ad7632cc68a800863c60a272aa62591871 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 21 Jul 2025 22:14:09 +0800
Subject: [PATCH 036/188] idiv works on x86 correct results

---
 tinygrad/renderer/asm.py | 17 ++++++++++-------
 1 file changed, 10 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b444e7da8a821..de2dbcf67b483 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -596,18 +596,22 @@ def _where(ctx, x):
 def idiv(ctx, x):
   dividend, divisor = x.src
   _dividend = ctx.r.assign_reg(IReg(0), dividend)
-  _divisor = ctx.r.assign_reg(IReg(3), divisor)
+  _divisor = ctx.r.assign(divisor, reg_type=IReg)
+  _edx = [v for v in ctx.r.uops.values() if v.reg == IReg(2)]
+  mov2 = None
+  if len(_edx) >= 1:
+    edx = _edx[0]
+    ctx.r.move_var_to_stack(edx)
+    mov2 = edx.load(IReg(2), "stack")
   if Arch.x86:
     _mov = ctx.r.flush_kernel()
-    ctx.r.assign_reg(IReg(0), x)
-    _mov2 = ctx.r.flush_kernel()
+    ctx.r.uops[x].reg = IReg(0)
     ret = [
       *_mov,
       "cdq",
-      "idiv ebx",
-      *_mov2
+      f"idiv {_divisor.render32()}",
     ]
-    print(f"{ret=}")
+    if mov2: ret += mov2
     return ret
 
 complex_rewrites = PatternMatcher([
@@ -734,7 +738,6 @@ def render(self, uops:List[UOp]) -> str:
     uop_order = {} 
     var_intervals: dict[UOp, Variable] = OrderedDict()
     for i, u in enumerate(uops):
-      #if u.dtype is not dtypes.void:
       var = Variable(u, i, -1)
       if u.op is Ops.DEFINE_GLOBAL:
         if Arch.arm:

From 0becead84ad1c998fb052b012748ffd370f79068 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 21 Jul 2025 22:19:55 +0800
Subject: [PATCH 037/188] test acosh

---
 test/test_ops_2.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index af5b8c7c52d59..f7a16fad62b60 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -321,6 +321,9 @@ def test_idiv(self):
     helper_test_op(None, functools.partial(torch.div, rounding_mode="trunc"), Tensor.idiv, forward_only=True,
                    vals=[[-4, 7, 5, 4, -7, 8], [2, -3, 8, -2, 3, 5]])
 
+  def test_acosh(self):
+    helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()

From d125e2c6967c1b59d8c41e24823c4a8c413182bc Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 21 Jul 2025 23:50:29 +0800
Subject: [PATCH 038/188] need to handle AND for acosh

---
 test/test_ops_2.py       | 15 +++++++++++++++
 tinygrad/renderer/asm.py |  1 +
 2 files changed, 16 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index f7a16fad62b60..c1299fc9b9fcf 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -324,6 +324,21 @@ def test_idiv(self):
   def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
 
+  def test_and(self):
+    #data = [[1,-8,1],[32,1,6]]
+    #tor = torch.tensor(data, dtype=torch.int)
+    #ten = Tensor(data, dtype=dtypes.int32)
+    #helper_test_op([], lambda: tor&tor, lambda: ten&ten, forward_only=True)
+    #helper_test_op([], lambda: tor&0x1337, lambda: ten&0x1337, forward_only=True)
+    #helper_test_op([], lambda: 0x1337&tor, lambda: 0x1337&ten, forward_only=True)
+
+    data = [[True, True, False, False], [True, False, True, False]]
+    tor0, tor1 = torch.tensor(data[0], dtype=torch.bool),  torch.tensor(data[1], dtype=torch.bool)
+    ten0, ten1 = Tensor(data[0], dtype=dtypes.bool), Tensor(data[1], dtype=dtypes.bool)
+    helper_test_op([], lambda: tor0&tor1, lambda: ten0&ten1, forward_only=True)
+
+    #helper_test_op(None, lambda x: (1 < x) & (x < 2), forward_only=True, vals=[[1.2, 1.2, 1.2, 3.2]])
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index de2dbcf67b483..18fe039e84c17 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -357,6 +357,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
   (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
   (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
+  (Ops.AND,): "and"
 })
 
 def alu_old(ctx, x):

From d62f7a4e19d8b263847d8adba80be93670d00aa4 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 00:04:52 +0800
Subject: [PATCH 039/188] and works

---
 tinygrad/renderer/asm.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 18fe039e84c17..cd11b2b82cb36 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -71,6 +71,7 @@ def render(self, itemsize: int):
     """
     itemsize: bytes
     """
+    if itemsize == 1: return self.render8()
     if itemsize == 4: return self.render32()
     if itemsize == 8: return self.render64()
     raise Exception(f"Either 4 or 8 bytes for register, received {itemsize}")
@@ -269,6 +270,8 @@ def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
     var.reg = reg
     assert var.reg is not None
     return reg
+  def assign_i8(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+    return self.assign(_key, excludes, reserve, reg_type=IReg).render8()
   def assign_i32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
   def assign_i64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
@@ -633,6 +636,9 @@ def idiv(ctx, x):
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
+
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
+      lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
@@ -651,6 +657,8 @@ def idiv(ctx, x):
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
 
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),

From a8045434fb03270f9f7cef629a8f27a24ca77ecc Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 00:50:36 +0800
Subject: [PATCH 040/188] acosh invalid result

---
 tinygrad/renderer/asm.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index cd11b2b82cb36..94bf425b73ae6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -670,6 +670,12 @@ def idiv(ctx, x):
 
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+    lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From b5461f2d0e962b5425287660739cd3d1aedf6274 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 00:52:23 +0800
Subject: [PATCH 041/188] just have to use tiny_backend

---
 test/test_ops_2.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index c1299fc9b9fcf..c642a2e7fdfe0 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -323,6 +323,8 @@ def test_idiv(self):
 
   def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
+    helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
+    helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
   def test_and(self):
     #data = [[1,-8,1],[32,1,6]]

From 0313ff11357365e87c2fbe2138fcb30e71280af2 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 01:05:27 +0800
Subject: [PATCH 042/188] handle int64 -> int32

---
 tinygrad/renderer/asm.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 94bf425b73ae6..2c758da50424a 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -672,6 +672,8 @@ def idiv(ctx, x):
     lambda ctx, x, a: [f"movd {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
+    lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
     lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),

From a4fcf86988dafd5ebd3676911f47844861a8f404 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 01:05:38 +0800
Subject: [PATCH 043/188] default to tiny_backend

---
 test/test_ops.py   | 2 +-
 test/test_ops_2.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 56512f0eacf25..5bcad86b8be9c 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -7,7 +7,7 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
-if getenv("TINY_BACKEND"):
+if getenv("TINY_BACKEND", "1"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 
diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index c642a2e7fdfe0..3d72bda9c297a 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -8,7 +8,7 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
-if getenv("TINY_BACKEND"):
+if getenv("TINY_BACKEND", "1"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 

From 2deb52b77351d5d5f0609d77b052468cb284064d Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 01:16:07 +0800
Subject: [PATCH 044/188] bool

---
 tinygrad/renderer/asm.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 2c758da50424a..f77192a2b5456 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -636,6 +636,7 @@ def idiv(ctx, x):
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),

From e76b0ae1d16c47152f3f12b6a0bd5b415144f826 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 10:46:09 +0800
Subject: [PATCH 045/188] test_all works

---
 test/test_ops_2.py       |  7 +++++--
 tinygrad/renderer/asm.py | 42 ++++++++++++----------------------------
 2 files changed, 17 insertions(+), 32 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 3d72bda9c297a..0650733ca8456 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -8,7 +8,7 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
-if getenv("TINY_BACKEND", "1"):
+if getenv("TINY_BACKEND", "0"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 
@@ -339,7 +339,10 @@ def test_and(self):
     ten0, ten1 = Tensor(data[0], dtype=dtypes.bool), Tensor(data[1], dtype=dtypes.bool)
     helper_test_op([], lambda: tor0&tor1, lambda: ten0&ten1, forward_only=True)
 
-    #helper_test_op(None, lambda x: (1 < x) & (x < 2), forward_only=True, vals=[[1.2, 1.2, 1.2, 3.2]])
+    helper_test_op(None, lambda x: (1 < x) & (x < 2), forward_only=True, vals=[[1.2, 1.2, 1.2, 3.2]])
+  def test_all(self):
+    helper_test_op([(3,4,5,6)], lambda x: x.all(), forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[True, True]], forward_only=True)
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f77192a2b5456..df8e28c8ef0e9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -353,42 +353,22 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.MUL, ArchType.ARM, FReg): "fmul",
   (Ops.ASSIGN, ArchType.ARM, IReg): "mov",
   (Ops.ASSIGN, ArchType.ARM, FReg): "fmov",
-  (Ops.ASSIGN, ArchType.X86, IReg): "mov",
+  (Ops.ASSIGN, ArchType.X86, IReg, 8): "mov",
+  (Ops.ASSIGN, ArchType.X86, IReg, 32): "mov",
+  (Ops.ASSIGN, ArchType.X86, IReg, 64): "mov",
   (Ops.ASSIGN, ArchType.X86, FReg, 32): "movss",
   (Ops.ASSIGN, ArchType.X86, FReg, 64): "movsd",
   (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
   (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
   (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
-  (Ops.AND,): "and"
+  (Ops.AND,): "and",
+  (Ops.OR,): "or"
 })
 
-def alu_old(ctx, x):
-  dtype = x.src[0].dtype
-  reg_type = IReg if dtypes.is_int(dtype) else FReg
-  src0 = ctx.r.assign(x.src[0], reg_type=reg_type)
-  src1 = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
-  if ctx.r.uops[x.src[0]].end == ctx.r.i:
-    ctx.r.share(x, x.src[0])
-    dst = src0
-  else:
-    dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
-  operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
-  _src0, _src1, _dst = src0.render(dtype.itemsize), src1.render(dtype.itemsize), dst.render(dtype.itemsize)
-
-  if Arch.arm:
-    return [f"{operator} {_dst}, {_src0}, {_src1};"]
-  else:
-    _mov = "mov" if dtypes.is_int(dtype) else "movss" 
-    if _dst == _src0:
-      return [f"{operator} {_dst}, {_src1}"]
-    else:
-      return [f"{_mov} {_dst}, {_src0}",
-        f"{operator} {_dst}, {_src1}",]
-
 def alu(ctx, x):
   dtype = x.src[0].dtype
-  reg_type = IReg if dtypes.is_int(dtype) else FReg
+  reg_type = IReg if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else FReg
   src_regs = []
   excludes = []
   for _src in x.src:
@@ -406,7 +386,7 @@ def alu(ctx, x):
   if Arch.arm:
     return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
   else:
-    _mov = "mov" if dtypes.is_int(dtype) else "movss" 
+    _mov = "mov" if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else "movss" 
     if dst == src_regs[0] and len(src_regs_str) == 2:
       return [f"{operator} {_dst}, {src_regs_str[1]}"]
     elif len(src_regs_str) == 2:
@@ -493,7 +473,7 @@ def _index(ctx, x):
     return [ f"lea {reg}, [{src0_str} + {src1_str} * {multiplier}]" ]
 
 def assign(ctx, x):
-  reg_type = IReg if dtypes.is_int(x.src[0].dtype) else FReg
+  reg_type = IReg if dtypes.is_int(x.src[0].dtype) or dtypes.is_bool(x.src[0].dtype) else FReg
   dst = ctx.r.assign(x, reg_type=reg_type)
   src = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
   opcode = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
@@ -534,7 +514,7 @@ def to_bool(ctx, x, a):
     ]
 
 def float_cmp(ctx, x, a, b):
-  if dtypes.is_int(a.dtype): reg_type = IReg
+  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype): reg_type = IReg
   else: reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
   exclude_dst = [x] if reg_type == IReg else []
@@ -552,7 +532,7 @@ def float_cmp(ctx, x, a, b):
     ]
   else:
     size = a.dtype.itemsize
-    if dtypes.is_int(a.dtype):
+    if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
       mov_op = "mov"
       cmp_op = "cmp"
       set_op = "setl" if x.op is Ops.CMPLT else "setne"
@@ -649,6 +629,8 @@ def idiv(ctx, x):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
 
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),

From 1deb47944c7981a917f44eeb44dfa9653fb25260 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 10:46:38 +0800
Subject: [PATCH 046/188] more testall

---
 test/test_ops_2.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0650733ca8456..0f9b8e76f2a1f 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -343,6 +343,9 @@ def test_and(self):
   def test_all(self):
     helper_test_op([(3,4,5,6)], lambda x: x.all(), forward_only=True)
     helper_test_op(None, lambda x: x.all(), vals=[[True, True]], forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[True, False]], forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[False, False]], forward_only=True)
+    helper_test_op([()], lambda x: x.all(), forward_only=True)
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()

From 096109c05716d2e74ed9c7912659e0b4502b23f6 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 15:05:46 +0800
Subject: [PATCH 047/188] wip

---
 tinygrad/renderer/asm.py | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index df8e28c8ef0e9..70ebb16af8059 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -360,7 +360,9 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.ASSIGN, ArchType.X86, FReg, 64): "movsd",
   (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
+  (Ops.SQRT, ArchType.ARM, FReg): "fsqrt",
   (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
+  (Ops.RECIP, ArchType.ARM, FReg, 32): "frsqrte",
   (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
   (Ops.AND,): "and",
   (Ops.OR,): "or"
@@ -667,6 +669,10 @@ def idiv(ctx, x):
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
+
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
+      lambda ctx, x, addr, src: [f"strb {ctx.r.assign_i8(src)}, [{ctx.r.assign_i64(addr)}]"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_i32(src)}, [{ctx.r.assign_i64(addr)}]"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
@@ -676,6 +682,8 @@ def idiv(ctx, x):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_f64(src)}, [{ctx.r.assign_i64(addr)}]"]),
 
+  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
@@ -685,6 +693,8 @@ def idiv(ctx, x):
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
 
+  (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
+     lambda ctx, x, src: [f"ldrb {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
@@ -693,6 +703,17 @@ def idiv(ctx, x):
      lambda ctx, x, src: [f"ldr {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_f64(x)}, [{ctx.r.assign_i64(src)}]"]),
+
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"fmov {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+    lambda ctx, x, a: [f"fmov {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
+    lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+    lambda ctx, x, a: [f"scvtf {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"fcvtzs {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 ]) + complex_rewrites
 
 extra_matcher = PatternMatcher([

From b9d3f058821927a421d1b0524419336b2f1c6654 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 15:38:31 +0800
Subject: [PATCH 048/188] just acosh failing with stack offset being too big

---
 tinygrad/renderer/asm.py | 61 +++++++++++++++++++++++++++-------------
 1 file changed, 41 insertions(+), 20 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 70ebb16af8059..4205b485f9c6a 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -149,7 +149,10 @@ def load(self, reg: RegBase, src: str) -> list[str]:
   def copy(self, dst: RegBase) -> list[str]:
     assert self.reg is not None
     if Arch.arm:
-      raise Exception("not implemented")
+      if isinstance(self.reg, IReg) and isinstance(dst, IReg):
+        op = "mov"
+      else:
+        op = "fmov"
     else:
       if isinstance(self.reg, IReg) and isinstance(dst, IReg):
         op = "mov"
@@ -365,7 +368,8 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.RECIP, ArchType.ARM, FReg, 32): "frsqrte",
   (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
   (Ops.AND,): "and",
-  (Ops.OR,): "or"
+  (Ops.OR, ArchType.X86): "or",
+  (Ops.OR, ArchType.ARM): "orr",
 })
 
 def alu(ctx, x):
@@ -526,7 +530,7 @@ def float_cmp(ctx, x, a, b):
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
     size = a.dtype.itemsize
-    if dtypes.is_int(a.dtype): op = "cmp"
+    if reg_type == IReg: op = "cmp"
     else: op = "fcmp"
     return [
 	f"{op} {src_a.render(size)}, {src_b.render(size)}",   # Compare a and b
@@ -581,15 +585,15 @@ def _where(ctx, x):
 
 def idiv(ctx, x):
   dividend, divisor = x.src
-  _dividend = ctx.r.assign_reg(IReg(0), dividend)
-  _divisor = ctx.r.assign(divisor, reg_type=IReg)
-  _edx = [v for v in ctx.r.uops.values() if v.reg == IReg(2)]
-  mov2 = None
-  if len(_edx) >= 1:
-    edx = _edx[0]
-    ctx.r.move_var_to_stack(edx)
-    mov2 = edx.load(IReg(2), "stack")
   if Arch.x86:
+    _dividend = ctx.r.assign_reg(IReg(0), dividend)
+    _divisor = ctx.r.assign(divisor, reg_type=IReg)
+    _edx = [v for v in ctx.r.uops.values() if v.reg == IReg(2)]
+    mov2 = None
+    if len(_edx) >= 1:
+      edx = _edx[0]
+      ctx.r.move_var_to_stack(edx)
+      mov2 = edx.load(IReg(2), "stack")
     _mov = ctx.r.flush_kernel()
     ctx.r.uops[x].reg = IReg(0)
     ret = [
@@ -599,6 +603,15 @@ def idiv(ctx, x):
     ]
     if mov2: ret += mov2
     return ret
+  else:
+    _dividend = ctx.r.assign(dividend, reg_type=IReg)
+    _divisor = ctx.r.assign(divisor, reg_type=IReg)
+    _quotient = ctx.r.assign(x, reg_type=IReg)
+    ret = [
+      f"sdiv {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
+    ]
+    return ret
+
 
 complex_rewrites = PatternMatcher([
   (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
@@ -1432,7 +1445,7 @@ def _test_assign_occupied(self, dtype: DType, reg: RegBase, reg_old: RegBase, k:
     assert self.var1.reg == reg
 
   def test_assign_occupied_ireg(self):
-    ret = [f"mov rax, rcx"] if Arch.x86 else ["mov r0, r1"]
+    ret = [f"mov rax, rcx"] if Arch.x86 else ["mov x0, x1"]
     self._test_assign_occupied(dtypes.int, IReg(0), IReg(1), ret)
 
   def test_assign_occupied_freg(self):
@@ -1457,19 +1470,19 @@ def _unassigned_var_spill_reg(self, dtype: DType, reg: RegBase, stack: int, k: l
     assert self.var2.stack == stack
 
   def test_unassigned_var_spill_reg_i32(self):
-    k = ["mov [rbp - 8], rax"] if Arch.x86 else []
+    k = ["mov [rbp - 8], rax"] if Arch.x86 else ["str x0, [x29, #-8]"]
     self._unassigned_var_spill_reg(dtypes.int, IReg(0), 8, k)
 
   def test_unassigned_var_spill_reg_i64(self):
-    k = ["mov [rbp - 8], rax"] if Arch.x86 else []
+    k = ["mov [rbp - 8], rax"] if Arch.x86 else ["str x0, [x29, #-8]"]
     self._unassigned_var_spill_reg(dtypes.int64, IReg(0), 8, k)
 
   def test_unassigned_var_spill_reg_f32(self):
-    k = ["movss [rbp - 16], xmm0"] if Arch.x86 else []
+    k = ["movss [rbp - 16], xmm0"] if Arch.x86 else ["str d0, [x29, #-16]"]
     self._unassigned_var_spill_reg(dtypes.float32, FReg(0), 16, k)
 
   def test_unassigned_var_spill_reg_f64(self):
-    k = ["movsd [rbp - 16], xmm0"] if Arch.x86 else []
+    k = ["movsd [rbp - 16], xmm0"] if Arch.x86 else ["str d0, [x29, #-16]"]
     self._unassigned_var_spill_reg(dtypes.float64, FReg(0), 16, k)
 
   def _assigned_var_spill_reg(self, dtype: DType, reg: RegBase,
@@ -1494,17 +1507,25 @@ def _assigned_var_spill_reg(self, dtype: DType, reg: RegBase,
     assert self.var2.stack == stack
 
   def test_assigned_var_spill_reg_i32(self):
-    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else []
+    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else [
+      "str x0, [x29, #-8]", "mov x0, x1"
+      ]
     self._assigned_var_spill_reg(dtypes.int, IReg(0), IReg(1), 8, k)
 
   def test_assigned_var_spill_reg_i64(self):
-    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else []
+    k = ["mov [rbp - 8], rax", "mov rax, rcx"] if Arch.x86 else [
+      "str x0, [x29, #-8]", "mov x0, x1"
+      ]
     self._assigned_var_spill_reg(dtypes.int64, IReg(0), IReg(1), 8, k)
 
   def test_assigned_var_spill_reg_f32(self):
-    k = ["movss [rbp - 16], xmm0", "movss xmm0, xmm1"] if Arch.x86 else []
+    k = ["movss [rbp - 16], xmm0", "movss xmm0, xmm1"] if Arch.x86 else [
+      "str d0, [x29, #-16]", "fmov d0, d1"
+      ]
     self._assigned_var_spill_reg(dtypes.float32, FReg(0), FReg(1), 16, k)
 
   def test_assigned_var_spill_reg_f64(self):
-    k = ["movsd [rbp - 16], xmm0", "movsd xmm0, xmm1"] if Arch.x86 else []
+    k = ["movsd [rbp - 16], xmm0", "movsd xmm0, xmm1"] if Arch.x86 else [
+      "str d0, [x29, #-16]", "fmov d0, d1"
+      ]
     self._assigned_var_spill_reg(dtypes.float64, FReg(0), FReg(1), 16, k)

From c9680f13f22f323dbd41e4a155a9e83a5be90352 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 22 Jul 2025 17:23:38 +0800
Subject: [PATCH 049/188] use x30 as a second stack pointer for stuff > 255

---
 test/test_ops_2.py       | 12 ++++++------
 tinygrad/renderer/asm.py | 17 +++++++++++++++--
 2 files changed, 21 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0f9b8e76f2a1f..2e1295afb7f83 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -327,12 +327,12 @@ def test_acosh(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
   def test_and(self):
-    #data = [[1,-8,1],[32,1,6]]
-    #tor = torch.tensor(data, dtype=torch.int)
-    #ten = Tensor(data, dtype=dtypes.int32)
-    #helper_test_op([], lambda: tor&tor, lambda: ten&ten, forward_only=True)
-    #helper_test_op([], lambda: tor&0x1337, lambda: ten&0x1337, forward_only=True)
-    #helper_test_op([], lambda: 0x1337&tor, lambda: 0x1337&ten, forward_only=True)
+    data = [[1,-8,1],[32,1,6]]
+    tor = torch.tensor(data, dtype=torch.int)
+    ten = Tensor(data, dtype=dtypes.int32)
+    helper_test_op([], lambda: tor&tor, lambda: ten&ten, forward_only=True)
+    helper_test_op([], lambda: tor&0x1337, lambda: ten&0x1337, forward_only=True)
+    helper_test_op([], lambda: 0x1337&tor, lambda: 0x1337&ten, forward_only=True)
 
     data = [[True, True, False, False], [True, False, True, False]]
     tor0, tor1 = torch.tensor(data[0], dtype=torch.bool),  torch.tensor(data[1], dtype=torch.bool)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4205b485f9c6a..d23c55bae60f3 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -118,7 +118,13 @@ def store(self, dst: str) -> list[str]:
       assert self.stack is not None
       note = f""
       if Arch.arm:
-        return [f"str {self.reg.render64()}, [x29, #-{self.stack}]"]
+        if self.stack > 255:
+          sp = "x30"
+          stack = self.stack - 255
+        else:
+          sp = "x29"
+          stack = self.stack
+        return [f"str {self.reg.render64()}, [{sp}, #-{stack}]"]
       else:
         if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
           op = "mov"
@@ -137,7 +143,13 @@ def load(self, reg: RegBase, src: str) -> list[str]:
     if from_stack:
       assert self.stack is not None
       if Arch.arm:
-        return [f"ldr {reg.render64()}, [x29, #-{self.stack}]"]
+        if self.stack > 255:
+          sp = "x30"
+          stack = self.stack - 255
+        else:
+          sp = "x29"
+          stack = self.stack
+        return [f"ldr {reg.render64()}, [{sp}, #-{stack}]"]
       else:
         if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
           op = "mov"
@@ -823,6 +835,7 @@ def render(self, uops:List[UOp]) -> str:
       "stp x29, x30, [sp, #-16]!",
       "mov x29, sp",
       "mov x30, sp",
+      "sub x30, x30, #255",
       f"sub sp, sp, #{r.stack_size}",
     ] if self.arm else [
       "push rbp",

From 55d075c82cdcf6d55427929fa034d587b35985bb Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 23 Jul 2025 12:46:11 +0800
Subject: [PATCH 050/188] acosh fails with unroll

---
 tinygrad/renderer/asm.py | 40 ++++++++++++++++++++++++++--------------
 1 file changed, 26 insertions(+), 14 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d23c55bae60f3..425b56bdd2da9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -168,11 +168,6 @@ def copy(self, dst: RegBase) -> list[str]:
     else:
       if isinstance(self.reg, IReg) and isinstance(dst, IReg):
         op = "mov"
-      elif isinstance(self.reg, FReg) and isinstance(dst, FReg):
-        if self.uop.dtype.itemsize == 4:
-          op = "movss"
-        else:
-          op = "movsd"
       else:
         op = "movq"
     return [f"{op} {dst.render64()}, {self.reg.render64()}"]
@@ -538,8 +533,11 @@ def float_cmp(ctx, x, a, b):
   exclude_dst = [x] if reg_type == IReg else []
   src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
   src_b = ctx.r.assign(b, excludes=[a] + exclude_dst, reg_type=reg_type)
-  temp_reg, kernel = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type)
+  temp_reg, _ = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type)
+  temp_reg_2, _ = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=IReg)
+  assert temp_reg != temp_reg_2
   ctx.r.return_reg(temp_reg)
+  ctx.r.return_reg(temp_reg_2)
   if Arch.arm:
     size = a.dtype.itemsize
     if reg_type == IReg: op = "cmp"
@@ -555,15 +553,27 @@ def float_cmp(ctx, x, a, b):
       cmp_op = "cmp"
       set_op = "setl" if x.op is Ops.CMPLT else "setne"
     else:
-      cmp_op = "comiss" if a.dtype.itemsize == 4 else "comisd"
+      cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
       mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
       set_op = "setb" if x.op is Ops.CMPLT else "setne"
-    return [
-      f"xor {dst}, {dst}",
-      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-    ]
+    if set_op == "setne" and reg_type == FReg:
+      return [
+        f"xor {temp_reg_2}, {temp_reg_2}",
+        f"xor {dst}, {dst}",
+        f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+        f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+        f"setp {temp_reg_2.render8()}",
+        f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+        f"or {dst}, {temp_reg_2}",
+      ]
+    else:
+      return [
+        f"xor {dst}, {dst}",
+        f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+        f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+        f"setp {temp_reg_2.render8()}",
+        f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+      ]
 
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
@@ -873,9 +883,11 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/abs/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/acosh/kernel.s", "wt") as f: f.write(ret)
     return ret
 
+#TESTS
+
 class Tests(unittest.TestCase):
   def test_to_hex(self):
     assert float32_to_hex(20.0) == "0x41a00000"

From c37e44df319d1982d787f52394ed3e5ddf82385f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 23 Jul 2025 15:25:15 +0800
Subject: [PATCH 051/188] revert: just cosh fail with accuracy

---
 test/test_ops_2.py       | 2 +-
 tinygrad/renderer/asm.py | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 2e1295afb7f83..c8807e7744265 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -8,7 +8,7 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
-if getenv("TINY_BACKEND", "0"):
+if getenv("TINY_BACKEND"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 425b56bdd2da9..6a3af5d9508c3 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1474,7 +1474,7 @@ def test_assign_occupied_ireg(self):
     self._test_assign_occupied(dtypes.int, IReg(0), IReg(1), ret)
 
   def test_assign_occupied_freg(self):
-    ret = [f"movss xmm0, xmm1"] if Arch.x86 else [f"fmov d0, d1"]
+    ret = [f"movq xmm0, xmm1"] if Arch.x86 else [f"fmov d0, d1"]
     self._test_assign_occupied(dtypes.float, FReg(0), FReg(1), ret)
 
   def _unassigned_var_spill_reg(self, dtype: DType, reg: RegBase, stack: int, k: list[str]):
@@ -1544,13 +1544,13 @@ def test_assigned_var_spill_reg_i64(self):
     self._assigned_var_spill_reg(dtypes.int64, IReg(0), IReg(1), 8, k)
 
   def test_assigned_var_spill_reg_f32(self):
-    k = ["movss [rbp - 16], xmm0", "movss xmm0, xmm1"] if Arch.x86 else [
+    k = ["movss [rbp - 16], xmm0", "movq xmm0, xmm1"] if Arch.x86 else [
       "str d0, [x29, #-16]", "fmov d0, d1"
       ]
     self._assigned_var_spill_reg(dtypes.float32, FReg(0), FReg(1), 16, k)
 
   def test_assigned_var_spill_reg_f64(self):
-    k = ["movsd [rbp - 16], xmm0", "movsd xmm0, xmm1"] if Arch.x86 else [
+    k = ["movsd [rbp - 16], xmm0", "movq xmm0, xmm1"] if Arch.x86 else [
       "str d0, [x29, #-16]", "fmov d0, d1"
       ]
     self._assigned_var_spill_reg(dtypes.float64, FReg(0), FReg(1), 16, k)

From b2a9151f925c1c4758e9fff9f285f4ba590a0dcb Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 23 Jul 2025 15:27:22 +0800
Subject: [PATCH 052/188] need simpler code before handling acosh

---
 test/test_ops_2.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index c8807e7744265..8fcb0823f584b 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -321,6 +321,7 @@ def test_idiv(self):
     helper_test_op(None, functools.partial(torch.div, rounding_mode="trunc"), Tensor.idiv, forward_only=True,
                    vals=[[-4, 7, 5, 4, -7, 8], [2, -3, 8, -2, 3, 5]])
 
+  @unittest.skip("need simpler code first")
   def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)

From 31bc0262c9944cc795c1e8bf6feaf29c740f1357 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 00:37:12 +0800
Subject: [PATCH 053/188] starting Allocator v2

---
 tinygrad/renderer/asm.py | 109 +++++++++++++++++++++++----------------
 1 file changed, 65 insertions(+), 44 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 6a3af5d9508c3..68f7537dd1c8c 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -108,55 +108,43 @@ def __repr__(self):
     location = f" reg:{self.reg}" if self.reg is not None else f" stack:{self.stack}" if self.stack is not None else ""
     return f"({self.start}-{self.end} reg:{self.reg} stack:{self.stack})"
 
-  def store(self, dst: str) -> list[str]:
+  def store(self, dst: str="") -> list[str]:
     assert self.reg is not None
-    to_stack = dst == "stack"
-    to_mem = dst == "mem"
-    assert to_stack ^ to_mem
-    assert getattr(self, dst) is not None
-    if to_stack:
-      assert self.stack is not None
-      note = f""
-      if Arch.arm:
-        if self.stack > 255:
-          sp = "x30"
-          stack = self.stack - 255
-        else:
-          sp = "x29"
-          stack = self.stack
-        return [f"str {self.reg.render64()}, [{sp}, #-{stack}]"]
+    assert self.stack is not None
+    note = f""
+    if Arch.arm:
+      if self.stack > 255:
+        sp = "x30"
+        stack = self.stack - 255
       else:
-        if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
-          op = "mov"
-        else:
-          op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
-        return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
+        sp = "x29"
+        stack = self.stack
+      return [f"str {self.reg.render64()}, [{sp}, #-{stack}]"]
     else:
-      raise Exception("not implemented")
+      if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
+        op = "mov"
+      else:
+        op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
+      return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
 
-  def load(self, reg: RegBase, src: str) -> list[str]:
+  def load(self, reg: RegBase, src: str="") -> list[str]:
     assert self.reg is None
-    from_stack = src == "stack"
-    from_mem = src == "mem"
-    assert from_stack ^ from_mem
     self.reg = reg
-    if from_stack:
-      assert self.stack is not None
-      if Arch.arm:
-        if self.stack > 255:
-          sp = "x30"
-          stack = self.stack - 255
-        else:
-          sp = "x29"
-          stack = self.stack
-        return [f"ldr {reg.render64()}, [{sp}, #-{stack}]"]
+    assert self.stack is not None
+    if Arch.arm:
+      if self.stack > 255:
+        sp = "x30"
+        stack = self.stack - 255
       else:
-        if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
-          op = "mov"
-        else:
-          op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
-        return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
-    else: raise Exception("not implemented")
+        sp = "x29"
+        stack = self.stack
+      return [f"ldr {reg.render64()}, [{sp}, #-{stack}]"]
+    else:
+      if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
+        op = "mov"
+      else:
+        op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
+      return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
 
   def copy(self, dst: RegBase) -> list[str]:
     assert self.reg is not None
@@ -172,8 +160,6 @@ def copy(self, dst: RegBase) -> list[str]:
         op = "movq"
     return [f"{op} {dst.render64()}, {self.reg.render64()}"]
 
-
-
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int = 0):
     self.pool: list[RegBase] = [IReg(i) for i in range(num_ireg-1, -1, -1)]
@@ -322,6 +308,41 @@ def free_expired(self, i: int):
       if count == 0:
         pool = self.pools[type(reg)]
         pool.insert(0, reg)
+
+x86_params_mapping: dict[int, int] = {
+  0: 7, #R7 (rdi)
+  1: 6, #R6 (rsi)
+  2: 2, #R2 (rdx)
+  3: 1, #R1 (rcx)
+  4: 8, #R8
+  5: 9, #R9 
+}
+class Allocator2:
+  def __init__(self, num_ireg: int, num_freg: int):
+    self.pools: dict[type[RegBase], list[RegBase]] = {
+      IReg: [IReg(i) for i in range(num_ireg)],
+      FReg: [FReg(i) for i in range(num_freg)],
+    }
+    self.uops: dict[UOp, Variable] = {}
+    self.stack_size = 0
+    self.index = 0
+    self.kernel: list[str] = []
+    self.reserved: set[RegBase] = set()
+    self.blocked: set[RegBase] = set()
+  def assign(self, uops: list[UOp], reg_type: type[RegBase]):
+    pass
+  def alloc(self, reg_type: type[RegBase]):
+    pass
+  def spill(self, reg: RegBase):
+    pool = self.pools[type(reg)]
+    # figure out which var is holding onto this reg
+    vars: list[Variable] = []
+    if len(vars):
+      for var in vars:
+        var.store("stack")
+    
+    
+
   
 def stack_all(a: Allocator):
   for u, var in a.uops.items():

From cb0970dc44ab930267e077fe9fa2360d5d16888e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 01:47:54 +0800
Subject: [PATCH 054/188] allocator 2 blueprint

---
 tinygrad/renderer/asm.py | 91 +++++++++++++++++++++++++++++++++++-----
 1 file changed, 80 insertions(+), 11 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 68f7537dd1c8c..f0dfe8c4423b4 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -329,21 +329,90 @@ def __init__(self, num_ireg: int, num_freg: int):
     self.kernel: list[str] = []
     self.reserved: set[RegBase] = set()
     self.blocked: set[RegBase] = set()
-  def assign(self, uops: list[UOp], reg_type: type[RegBase]):
-    pass
-  def alloc(self, reg_type: type[RegBase]):
+  def assign(self, uop: UOp, reg_type: type[RegBase], excludes: list[RegBase]=[]) -> RegBase:
+    var = self.uops[uop]
+    if var.reg is not None: return var.reg
+    reg = self.alloc(reg_type, excludes)
+    if var.stack is not None:
+      self.kernel.extend(var.load(reg))
+    var.reg = reg
+    return reg
+  def assign_multiple(self, uops: list[UOp], reg_type: type[RegBase], excludes: list[RegBase]=[]):
     pass
-  def spill(self, reg: RegBase):
+  def alloc_multiple(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]):
+    pool = self.pools[reg_type]
+    regs = []
+    if len(pool):
+      idx, count = 0, 0
+      while idx < len(pool) and count < num:
+        _reg = pool[idx]
+        if _reg not in self.blocked and _reg not in excludes and _reg not in self.reserved:
+          regs.append(pool.pop(idx))
+          count += 1
+        else:
+          idx += 1
+    if len(regs) == num:
+      return regs
+    num_to_spill = num - len(regs)
+    candidates = self._find_spill_candidates(num_to_spill, reg_type, excludes)
+    for uop, var in candidates:
+      reg = var.reg
+      assert reg is not None
+      self._spill(reg)
+      regs.append(reg)
+    return regs
+
+  def alloc(self, reg_type: type[RegBase], excludes: list[RegBase]=[]) -> RegBase:
+    pool = self.pools[reg_type]
+    if len(pool):
+      reg = None
+      for _reg in pool:
+        if _reg not in self.blocked and _reg not in excludes and _reg not in self.reserved:
+          reg = _reg
+      assert reg is not None
+    else:
+      candidates = self._find_spill_candidates(1, reg_type, excludes)
+      assert len(candidates) == 1
+      uop, var = candidates[0]
+      reg = var.reg
+      assert reg is not None
+      self._spill(reg)
+    return reg  
+  def alloc_reg(self, reg: RegBase) -> None:
+    if reg not in self.pools[type(reg)]:
+      self._spill(reg)
+  def assign_reg(self, reg: RegBase, uop: UOp) -> None:
+    var = self.uops[uop]
+    self.alloc_reg(reg)
+    if var.reg is not None:
+      self.kernel.extend(var.copy(reg))
+    var.reg = reg
+  def _spill(self, reg: RegBase) -> None:
     pool = self.pools[type(reg)]
-    # figure out which var is holding onto this reg
+    vars = self._find_vars_holding_reg(reg)
+    for var in vars:
+      self.kernel.extend(var.store())
+      var.reg = None
+  def _find_vars_holding_reg(self, reg: RegBase) -> list[Variable]:
     vars: list[Variable] = []
-    if len(vars):
-      for var in vars:
-        var.store("stack")
-    
-    
+    for v in self.uops.values():
+      if v.reg == reg: vars.append(v)
+    return vars
+  def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]=[]):
+    candidates: list[tuple[UOp, Variable]] = []
+    for u, v in self.uops.items():
+      if v.reg is not None:
+        candidates.append((u, v))
+    candidates = [(u,v) for u, v in candidates if type(v.reg) == reg_type]
+    candidates = [(u,v) for u, v in candidates if v.reg not in self.reserved]
+    candidates = [(u,v) for u, v in candidates if v.reg not in self.blocked]
+    candidates = [(u,v) for u, v in candidates if v.reg not in excludes]
+    assert len(candidates), "no candidates left"
+    candidates = sorted(candidates, key=lambda u_v: u_v[1].end, reverse=True)
+    assert len(candidates) >= num, "Not enough registers to fulfill spill"
+    candidates = candidates[:num]
+    return candidates
 
-  
 def stack_all(a: Allocator):
   for u, var in a.uops.items():
     # Previously was also checking var.stack and missed updated value

From 1b8d9cc9b68d1c47382190f565e0027703cbcc49 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 01:49:03 +0800
Subject: [PATCH 055/188] rename do_not_use to blocked

---
 tinygrad/renderer/asm.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f0dfe8c4423b4..df95df6dafc5b 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -182,7 +182,7 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     }
     self.kernel: list[str] = []
     self.i: int = 0
-    self.do_not_use: list[RegBase] = [IReg(4)]
+    self.blocked: list[RegBase] = [IReg(4)]
 
   def __getitem__(self, _key: UOp) -> RegBase:
     return self.assign(_key)
@@ -202,7 +202,7 @@ def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
     if reg_type is not None:
       pool = self.pools[reg_type]
       if len(pool):
-        while (reg:=pool.pop(0)) in self.do_not_use: pass
+        while (reg:=pool.pop(0)) in self.blocked: pass
         return reg, []
       else:
         vars_in_regs = []

From 8a4bcc12dcadaa564fead3e43dadaf082164e408 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 01:50:42 +0800
Subject: [PATCH 056/188] remove helper extend kernel

---
 tinygrad/renderer/asm.py | 11 ++++-------
 1 file changed, 4 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index df95df6dafc5b..3ee4d93c7de6b 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -192,9 +192,6 @@ def flush_kernel(self) -> list[str]:
     self.kernel = []
     return ret
 
-  def extend_kernel(self, l: list[str]):
-    self.kernel.extend(l)
-
   def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
             exclude_regs: list[RegBase]=[],
             debug:bool=False
@@ -243,7 +240,7 @@ def save_var_to_stack(self, v: Variable):
       self.stack_size += (v.reg.size // 8)
       v.stack = self.stack_size
     k = v.store("stack")
-    self.extend_kernel(k)
+    self.kernel.extend(k)
 
   def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
              reg_type: Optional[type[RegBase]]=IReg,
@@ -261,7 +258,7 @@ def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
       return var.reg
     reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
-      self.extend_kernel(var.load(reg, "stack"))
+      self.kernel.extend(var.load(reg, "stack"))
     if reserve: self.reserved[_key] = 1
     var.reg = reg
     assert var.reg is not None
@@ -280,7 +277,7 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
     pool = self.pools[type(reg)]
     var = self.uops[_key]
     if reg in pool:
-      if var.reg is not None: self.extend_kernel(var.copy(reg))
+      if var.reg is not None: self.kernel.extend(var.copy(reg))
       var.reg = reg
       pool.pop(pool.index(reg))
     else:
@@ -289,7 +286,7 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
       var2 = vars[0]
       self.save_var_to_stack(var2)
       var2.reg = None
-      if var.reg is not None: self.extend_kernel(var.copy(reg))
+      if var.reg is not None: self.kernel.extend(var.copy(reg))
       var.reg = reg
   
   def release(self, uop: UOp): del self.reserved[uop] 

From 7432f401714c2a94c4416e58ebbfcae902677eb3 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 02:00:43 +0800
Subject: [PATCH 057/188] exclude now uses regs

---
 tinygrad/renderer/asm.py | 59 +++++++++++++++++++++-------------------
 1 file changed, 31 insertions(+), 28 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 3ee4d93c7de6b..89170f194ab0d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -192,7 +192,7 @@ def flush_kernel(self) -> list[str]:
     self.kernel = []
     return ret
 
-  def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
+  def alloc(self, excludes: list[RegBase]=[], reg_type: Optional[type[RegBase]]=None,
             exclude_regs: list[RegBase]=[],
             debug:bool=False
             ) -> tuple[RegBase, list[str]]:
@@ -204,7 +204,7 @@ def alloc(self, excludes: list[UOp]=[], reg_type: Optional[type[RegBase]]=None,
       else:
         vars_in_regs = []
         for u, var in self.uops.items():
-          if var.reg is not None and u not in excludes and u not in self.reserved \
+          if var.reg is not None and var.reg not in excludes and u not in self.reserved \
             and isinstance(var.reg, reg_type):
             vars_in_regs.append(var)
         if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
@@ -242,7 +242,7 @@ def save_var_to_stack(self, v: Variable):
     k = v.store("stack")
     self.kernel.extend(k)
 
-  def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
+  def assign(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool=False,
              reg_type: Optional[type[RegBase]]=IReg,
              debug:bool=False,
              ) -> RegBase:
@@ -263,15 +263,15 @@ def assign(self, _key: UOp, excludes: list[UOp]=[], reserve: bool=False,
     var.reg = reg
     assert var.reg is not None
     return reg
-  def assign_i8(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+  def assign_i8(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render8()
-  def assign_i32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+  def assign_i32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
-  def assign_i64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+  def assign_i64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=IReg).render64()
-  def assign_f32(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+  def assign_f32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=FReg).render32()
-  def assign_f64(self, _key: UOp, excludes: list[UOp]=[], reserve: bool = False):
+  def assign_f64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, excludes, reserve, reg_type=FReg).render64()
   def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
     pool = self.pools[type(reg)]
@@ -470,16 +470,16 @@ def alu(ctx, x):
   dtype = x.src[0].dtype
   reg_type = IReg if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else FReg
   src_regs = []
-  excludes = []
+  excludes: List[RegBase] = []
   for _src in x.src:
     _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
-    excludes.append(_src)
+    excludes.append(_reg)
     src_regs.append(_reg)
   if ctx.r.uops[x.src[0]].end == ctx.r.i:
     ctx.r.share(x, x.src[0])
     dst = src_regs[0]
   else:
-    dst = ctx.r.assign(x, excludes=list(x.src), reg_type=reg_type)
+    dst = ctx.r.assign(x, excludes=excludes, reg_type=reg_type)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   _dst = dst.render(dtype.itemsize)
   src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]
@@ -562,9 +562,11 @@ def endrange(ctx, x):
 
 def _index(ctx, x):
   src0, src1 = x.src[0], x.src[1]
-  src0_str = ctx.r.assign(src0, reg_type=IReg).render64()
-  src1_str = ctx.r.assign(src1, excludes=[src0], reg_type=IReg).render64()
-  reg = ctx.r.assign(x, excludes=[src0, src1], reg_type=IReg).render64()
+  src0_reg = ctx.r.assign(src0, reg_type=IReg)
+  src0_str = src0_reg.render64()
+  src1_reg = ctx.r.assign(src1, excludes=[src0_reg], reg_type=IReg)
+  src1_str = src1_reg.render64()
+  reg = ctx.r.assign(x, excludes=[src0_reg, src1_reg], reg_type=IReg).render64()
   multiplier = src0.dtype.itemsize
   lsl = int(math.log2(multiplier))
   if Arch.arm:
@@ -575,7 +577,8 @@ def _index(ctx, x):
 def assign(ctx, x):
   reg_type = IReg if dtypes.is_int(x.src[0].dtype) or dtypes.is_bool(x.src[0].dtype) else FReg
   dst = ctx.r.assign(x, reg_type=reg_type)
-  src = ctx.r.assign(x.src[1], excludes=[x.src[0]], reg_type=reg_type)
+  x_src_0_reg = ctx.r.uops[x.src[0]].reg
+  src = ctx.r.assign(x.src[1], excludes=[x_src_0_reg], reg_type=reg_type)
   opcode = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
   return [f"{opcode} {dst}, {src}"]
@@ -586,9 +589,9 @@ def to_bool(ctx, x, a):
   else:
     reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
-  exclude_dst_reg = [x] if reg_type == IReg else []
+  exclude_dst_reg = [dst] if reg_type == IReg else []
   src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-  temp_reg, _ = ctx.r.alloc(excludes=[a]+exclude_dst_reg, reg_type=reg_type)
+  temp_reg, _ = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype):
@@ -617,11 +620,11 @@ def float_cmp(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype): reg_type = IReg
   else: reg_type = FReg
   dst = ctx.r.assign(x, reg_type=IReg)
-  exclude_dst = [x] if reg_type == IReg else []
+  exclude_dst = [dst] if reg_type == IReg else []
   src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-  src_b = ctx.r.assign(b, excludes=[a] + exclude_dst, reg_type=reg_type)
-  temp_reg, _ = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=reg_type)
-  temp_reg_2, _ = ctx.r.alloc(excludes=[a, b]+exclude_dst, reg_type=IReg)
+  src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
+  temp_reg, _ = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=reg_type)
+  temp_reg_2, _ = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=IReg)
   assert temp_reg != temp_reg_2
   ctx.r.return_reg(temp_reg)
   ctx.r.return_reg(temp_reg_2)
@@ -1169,9 +1172,9 @@ def _setup(self):
   def test_exclude(self):
     self.a = Allocator(2)
     self._setup()
-    self.a.assign(self.uop1)
-    self.a.assign(self.uop2)
-    self.a.assign(self.uop3, excludes=[self.uop2])
+    reg1 = self.a.assign(self.uop1)
+    reg2 = self.a.assign(self.uop2)
+    reg3 = self.a.assign(self.uop3, excludes=[reg2])
     assert self.var1.reg is None and self.var1.stack == 8
     assert self.var2.reg == IReg(1)
     assert self.var3.reg == IReg(0)
@@ -1183,9 +1186,9 @@ def test_exclude_not_enough_reg(self):
   def test_exclude_not_enough_reg_raise(self):
     self.a = Allocator(1)
     self._setup()
-    self.a.assign(self.uop2)
+    reg2 = self.a.assign(self.uop2)
     with self.assertRaises(Exception):
-      self.a.assign(self.uop3, excludes=[self.uop2])
+      self.a.assign(self.uop3, excludes=[reg2])
   def test_reserve(self):
     self.a = Allocator(2)
     self._setup()
@@ -1213,8 +1216,8 @@ def test_reserve_not_enough_reg_pair(self):
     self.a.assign(self.uop1, reserve=True)
     self.a.assign(self.uop2, reserve=True)
     with self.assertRaises(Exception):
-      self.a.assign(self.uop3)
-      self.a.assign(self.uop4, excludes=[self.uop3])
+      reg3 = self.a.assign(self.uop3)
+      self.a.assign(self.uop4, excludes=[reg3])
 
 class TestAllocatorAluShareReg(unittest.TestCase):
   def test_add_no_share(self):

From 1275f68466cf7b34d98147c3d9627e1aa37f5bed Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:34:48 +0800
Subject: [PATCH 058/188] reserve is reg based

---
 tinygrad/renderer/asm.py | 113 ++++-----------------------------------
 1 file changed, 9 insertions(+), 104 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 89170f194ab0d..cf337fda78c2e 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -171,7 +171,7 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     self.stack_size = 0
     self.uops: dict[UOp, Variable] = {}
     self.index = 0
-    self.reserved: dict[UOp, int] = {}
+    self.reserved: dict[RegBase, int] = {}
     self.x86_params: dict[int, int] = {
       0: 7, #R7 (rdi)
       1: 6, #R6 (rsi)
@@ -204,7 +204,7 @@ def alloc(self, excludes: list[RegBase]=[], reg_type: Optional[type[RegBase]]=No
       else:
         vars_in_regs = []
         for u, var in self.uops.items():
-          if var.reg is not None and var.reg not in excludes and u not in self.reserved \
+          if var.reg is not None and var.reg not in excludes and var.reg not in self.reserved \
             and isinstance(var.reg, reg_type):
             vars_in_regs.append(var)
         if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
@@ -259,7 +259,7 @@ def assign(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool=False,
     reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
       self.kernel.extend(var.load(reg, "stack"))
-    if reserve: self.reserved[_key] = 1
+    if reserve: self.reserved[reg] = 1
     var.reg = reg
     assert var.reg is not None
     return reg
@@ -289,7 +289,7 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
       if var.reg is not None: self.kernel.extend(var.copy(reg))
       var.reg = reg
   
-  def release(self, uop: UOp): del self.reserved[uop] 
+  def release(self, reg: RegBase): del self.reserved[reg] 
 
   def free_expired(self, i: int):
     expired: list[UOp] = []
@@ -300,11 +300,12 @@ def free_expired(self, i: int):
       if var.reg and var.end < i: assigned_regs[var.reg] -= 1
     for uop in expired:
       del self.uops[uop]
-      if self.reserved.get(uop): self.release(uop)
     for reg, count in assigned_regs.items():
       if count == 0:
         pool = self.pools[type(reg)]
         pool.insert(0, reg)
+        if self.reserved.get(reg):
+          del self.reserved[reg]
 
 x86_params_mapping: dict[int, int] = {
   0: 7, #R7 (rdi)
@@ -314,106 +315,11 @@ def free_expired(self, i: int):
   4: 8, #R8
   5: 9, #R9 
 }
-class Allocator2:
-  def __init__(self, num_ireg: int, num_freg: int):
-    self.pools: dict[type[RegBase], list[RegBase]] = {
-      IReg: [IReg(i) for i in range(num_ireg)],
-      FReg: [FReg(i) for i in range(num_freg)],
-    }
-    self.uops: dict[UOp, Variable] = {}
-    self.stack_size = 0
-    self.index = 0
-    self.kernel: list[str] = []
-    self.reserved: set[RegBase] = set()
-    self.blocked: set[RegBase] = set()
-  def assign(self, uop: UOp, reg_type: type[RegBase], excludes: list[RegBase]=[]) -> RegBase:
-    var = self.uops[uop]
-    if var.reg is not None: return var.reg
-    reg = self.alloc(reg_type, excludes)
-    if var.stack is not None:
-      self.kernel.extend(var.load(reg))
-    var.reg = reg
-    return reg
-  def assign_multiple(self, uops: list[UOp], reg_type: type[RegBase], excludes: list[RegBase]=[]):
-    pass
-  def alloc_multiple(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]):
-    pool = self.pools[reg_type]
-    regs = []
-    if len(pool):
-      idx, count = 0, 0
-      while idx < len(pool) and count < num:
-        _reg = pool[idx]
-        if _reg not in self.blocked and _reg not in excludes and _reg not in self.reserved:
-          regs.append(pool.pop(idx))
-          count += 1
-        else:
-          idx += 1
-    if len(regs) == num:
-      return regs
-    num_to_spill = num - len(regs)
-    candidates = self._find_spill_candidates(num_to_spill, reg_type, excludes)
-    for uop, var in candidates:
-      reg = var.reg
-      assert reg is not None
-      self._spill(reg)
-      regs.append(reg)
-    return regs
-
-  def alloc(self, reg_type: type[RegBase], excludes: list[RegBase]=[]) -> RegBase:
-    pool = self.pools[reg_type]
-    if len(pool):
-      reg = None
-      for _reg in pool:
-        if _reg not in self.blocked and _reg not in excludes and _reg not in self.reserved:
-          reg = _reg
-      assert reg is not None
-    else:
-      candidates = self._find_spill_candidates(1, reg_type, excludes)
-      assert len(candidates) == 1
-      uop, var = candidates[0]
-      reg = var.reg
-      assert reg is not None
-      self._spill(reg)
-    return reg  
-  def alloc_reg(self, reg: RegBase) -> None:
-    if reg not in self.pools[type(reg)]:
-      self._spill(reg)
-  def assign_reg(self, reg: RegBase, uop: UOp) -> None:
-    var = self.uops[uop]
-    self.alloc_reg(reg)
-    if var.reg is not None:
-      self.kernel.extend(var.copy(reg))
-    var.reg = reg
-  def _spill(self, reg: RegBase) -> None:
-    pool = self.pools[type(reg)]
-    vars = self._find_vars_holding_reg(reg)
-    for var in vars:
-      self.kernel.extend(var.store())
-      var.reg = None
-  def _find_vars_holding_reg(self, reg: RegBase) -> list[Variable]:
-    vars: list[Variable] = []
-    for v in self.uops.values():
-      if v.reg == reg: vars.append(v)
-    return vars
-  def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]=[]):
-    candidates: list[tuple[UOp, Variable]] = []
-    for u, v in self.uops.items():
-      if v.reg is not None:
-        candidates.append((u, v))
-    candidates = [(u,v) for u, v in candidates if type(v.reg) == reg_type]
-    candidates = [(u,v) for u, v in candidates if v.reg not in self.reserved]
-    candidates = [(u,v) for u, v in candidates if v.reg not in self.blocked]
-    candidates = [(u,v) for u, v in candidates if v.reg not in excludes]
-    assert len(candidates), "no candidates left"
-    candidates = sorted(candidates, key=lambda u_v: u_v[1].end, reverse=True)
-    assert len(candidates) >= num, "Not enough registers to fulfill spill"
-    candidates = candidates[:num]
-    return candidates
 
 def stack_all(a: Allocator):
   for u, var in a.uops.items():
     # Previously was also checking var.stack and missed updated value
-    if var.reg is not None and u not in a.reserved:
+    if var.reg is not None and var.reg not in a.reserved:
       a.move_var_to_stack(var)
 
 def float32_to_hex(f: float) -> str:
@@ -546,7 +452,6 @@ def endrange(ctx, x):
   acc, end = x.src[0], x.src[0].src[0]
   stack_all(ctx.r)
   acc_reg = ctx.r.assign_i64(acc)
-  ctx.r.release(x.src[0])
   if Arch.arm:
     return [
       f"add {acc_reg}, {acc_reg}, #1",
@@ -1207,8 +1112,8 @@ def test_reserve_release(self):
     self.a = Allocator(2)
     self._setup()
     self.a.assign(self.uop1, reserve=True)
-    self.a.assign(self.uop2, reserve=True)
-    self.a.release(self.uop2)
+    reg2 = self.a.assign(self.uop2, reserve=True)
+    self.a.release(reg2)
     self.a.assign(self.uop3)
   def test_reserve_not_enough_reg_pair(self):
     self.a = Allocator(3)

From 7a8764c5df3b2481050c74792b080fbe64ebb6a9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:41:14 +0800
Subject: [PATCH 059/188] rename i, index to cur_step

---
 tinygrad/renderer/asm.py | 20 +++++++++-----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index cf337fda78c2e..0c9bd57cc8287 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -162,15 +162,14 @@ def copy(self, dst: RegBase) -> list[str]:
 
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int = 0):
-    self.pool: list[RegBase] = [IReg(i) for i in range(num_ireg-1, -1, -1)]
     self.pools: dict[type[RegBase], list[RegBase]] = {
       IReg: [IReg(i) for i in range(num_ireg)],
       FReg: [FReg(i) for i in range(num_freg)]
     }
+    self.uops: dict[UOp, Variable] = {}
     self.variables: list[Variable] = []
     self.stack_size = 0
-    self.uops: dict[UOp, Variable] = {}
-    self.index = 0
+    self.cur_step = 0
     self.reserved: dict[RegBase, int] = {}
     self.x86_params: dict[int, int] = {
       0: 7, #R7 (rdi)
@@ -181,7 +180,6 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
       5: 9, #R9 
     }
     self.kernel: list[str] = []
-    self.i: int = 0
     self.blocked: list[RegBase] = [IReg(4)]
 
   def __getitem__(self, _key: UOp) -> RegBase:
@@ -381,7 +379,7 @@ def alu(ctx, x):
     _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
     excludes.append(_reg)
     src_regs.append(_reg)
-  if ctx.r.uops[x.src[0]].end == ctx.r.i:
+  if ctx.r.uops[x.src[0]].end == ctx.r.cur_step:
     ctx.r.share(x, x.src[0])
     dst = src_regs[0]
   else:
@@ -592,12 +590,12 @@ def _where(ctx, x):
     else: mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
     return [
       f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
-      f"jz .f_case_{ctx.r.i}", #jump if ZF=1 => condition is false
+      f"jz .f_case_{ctx.r.cur_step}", #jump if ZF=1 => condition is false
       f"{mov_op} {_dst}, {_t}",
-      f"jmp .end_{ctx.r.i}",
-      f".f_case_{ctx.r.i}:",
+      f"jmp .end_{ctx.r.cur_step}",
+      f".f_case_{ctx.r.cur_step}:",
       f"{mov_op} {_dst}, {_f}",
-      f".end_{ctx.r.i}:",
+      f".end_{ctx.r.cur_step}:",
     ]
 
 def idiv(ctx, x):
@@ -813,7 +811,7 @@ def render(self, uops:List[UOp]) -> str:
     if DEBUG.value >= 6:
       for _u, v in r.uops.items(): print(v, oneline_uop(_u))
     for i,u in enumerate(uops):
-      self.r.i = i
+      self.r.cur_step = i
       if DEBUG.value >= 6:
         print("=================================")
         print(i, r.uops[u], u)
@@ -1160,7 +1158,7 @@ def test_add_share(self):
     self.r.assign_f32(self.uop1)
     self.r.assign_f32(self.uop2)
     rewriter = arm_rewrite if Arch.arm else x86_rewrite
-    self.r.i = 2
+    self.r.cur_step = 2
     l = rewriter.rewrite(self.uop3, self)
 
     assert self.r.uops[self.uop3].reg == self.r.uops[self.uop1].reg

From 5430515e41943a427a8273b823c25891b81b498c Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:41:55 +0800
Subject: [PATCH 060/188] remove .variables

---
 tinygrad/renderer/asm.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 0c9bd57cc8287..8e449b35a23e6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -167,10 +167,10 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
       FReg: [FReg(i) for i in range(num_freg)]
     }
     self.uops: dict[UOp, Variable] = {}
-    self.variables: list[Variable] = []
+    self.reserved: dict[RegBase, int] = {}
+    self.blocked: list[RegBase] = [IReg(4)]
     self.stack_size = 0
     self.cur_step = 0
-    self.reserved: dict[RegBase, int] = {}
     self.x86_params: dict[int, int] = {
       0: 7, #R7 (rdi)
       1: 6, #R6 (rsi)
@@ -180,7 +180,6 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
       5: 9, #R9 
     }
     self.kernel: list[str] = []
-    self.blocked: list[RegBase] = [IReg(4)]
 
   def __getitem__(self, _key: UOp) -> RegBase:
     return self.assign(_key)

From 8921780c6958c084d7b1cc01929ab352d00932b6 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:42:55 +0800
Subject: [PATCH 061/188] hoist x86_params

---
 tinygrad/renderer/asm.py | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 8e449b35a23e6..0bbfde6bd3c32 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -160,6 +160,14 @@ def copy(self, dst: RegBase) -> list[str]:
         op = "movq"
     return [f"{op} {dst.render64()}, {self.reg.render64()}"]
 
+x86_params: dict[int, int] = {
+  0: 7, #R7 (rdi)
+  1: 6, #R6 (rsi)
+  2: 2, #R2 (rdx)
+  3: 1, #R1 (rcx)
+  4: 8, #R8
+  5: 9, #R9 
+}
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int = 0):
     self.pools: dict[type[RegBase], list[RegBase]] = {
@@ -171,14 +179,6 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     self.blocked: list[RegBase] = [IReg(4)]
     self.stack_size = 0
     self.cur_step = 0
-    self.x86_params: dict[int, int] = {
-      0: 7, #R7 (rdi)
-      1: 6, #R6 (rsi)
-      2: 2, #R2 (rdx)
-      3: 1, #R1 (rcx)
-      4: 8, #R8
-      5: 9, #R9 
-    }
     self.kernel: list[str] = []
 
   def __getitem__(self, _key: UOp) -> RegBase:
@@ -791,7 +791,7 @@ def render(self, uops:List[UOp]) -> str:
         if Arch.arm:
           var.reg = r.pools[IReg].pop(0)
         else:
-          reg_num = r.x86_params[u.arg]
+          reg_num = x86_params[u.arg]
           reg_idx = r.pools[IReg].index(IReg(reg_num))
           assert reg_idx > -1
           var.reg = r.pools[IReg].pop(reg_idx)

From e87743843ada21d1f59dec31f90c175cc6ef20d3 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:45:06 +0800
Subject: [PATCH 062/188] sum test

---
 test/test_ops_2.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 8fcb0823f584b..44cd0a98b5b49 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -104,7 +104,6 @@ def test_split(self):
     tensors = Tensor.arange(16).reshape((4,4)).split((2,2))
     print(tensors[1].numpy())
 
-  @unittest.skip("")
   def test_chunk(self):
     t = Tensor.arange(13).repeat((8, 1))
     print(f"{t.shape=}")
@@ -158,9 +157,10 @@ def test_acos_large(self):
     #helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
     #helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
 
-  @unittest.skip("")
   def test_sum(self):
-    print(Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy())
+    np_ret = np.ones((16, 16)).sum(axis=1)
+    tg_ret = Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy()
+    np.testing.assert_equal(tg_ret, np_ret)
 
   @unittest.skip("")
   def test_where(self):

From e2234d4bbf15efeccf9aeb5b35ce5e06127d3e05 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:46:18 +0800
Subject: [PATCH 063/188] assert where

---
 test/test_ops_2.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 44cd0a98b5b49..4ca4421f56757 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -162,11 +162,10 @@ def test_sum(self):
     tg_ret = Tensor.ones(16, 16, dtype=dtypes.int).sum(axis=1).numpy()
     np.testing.assert_equal(tg_ret, np_ret)
 
-  @unittest.skip("")
   def test_where(self):
     a = Tensor([1, 2, 3])
     b = (a > 2).where(8, 9)
-    print(b.numpy())
+    assert b.tolist() == [9, 9, 8]
 
   def test_matmul_int64(self):
     with Context(DEBUG=0):

From ae4b54cfb0d2a0384853fcdd0e4b74e6c48a471e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:46:33 +0800
Subject: [PATCH 064/188] more acos test

---
 test/test_ops_2.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 4ca4421f56757..c2b65eef853c1 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -154,8 +154,8 @@ def test_acos(self):
     helper_test_op([(45,65)], lambda x: x.acos(), low=-1, high=1)
   def test_acos_large(self):
     helper_test_op([(20,)], lambda x: x.acos(), low=-300, high=-297)
-    #helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
-    #helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
+    helper_test_op([(45,65)], lambda x: x.acos(), low=-300, high=-297)
+    helper_test_op([(45,65)], lambda x: x.acos(), low=300, high=303)
 
   def test_sum(self):
     np_ret = np.ones((16, 16)).sum(axis=1)

From 2d90abb6d97aeafb244c9c5ed85411173e85213f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:46:55 +0800
Subject: [PATCH 065/188] more test_abs

---
 test/test_ops_2.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index c2b65eef853c1..e5b8f77ae01d3 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -126,8 +126,8 @@ def test_linespace(self):
 
   def test_abs(self):
     with Context(NOOPT=1): helper_test_op([(2,2)], torch.abs, Tensor.abs)
-    #with Context(NOOPT=0): helper_test_op([(8,8)], torch.abs, Tensor.abs)
-    #helper_test_op([(45,65)], torch.abs, Tensor.abs)
+    with Context(NOOPT=0): helper_test_op([(8,8)], torch.abs, Tensor.abs)
+    helper_test_op([(45,65)], torch.abs, Tensor.abs)
 
   def _test_abs(self, data, dtype):
     a = Tensor(data,  dtype=dtype, device="asm") 

From 551bc0741ec49eff8c3324990f4f39205616be99 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:49:34 +0800
Subject: [PATCH 066/188] more tests

---
 test/test_ops_2.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index e5b8f77ae01d3..9b71fc0f9b42c 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -95,14 +95,17 @@ def test_full_float32(self):
     a = Tensor.full((4,4), 20.0, dtype=dtypes.float32).contiguous().numpy()
     np.testing.assert_equal(a, np.full((4,4), 20.0, dtype=np.float32))
 
-  @unittest.skip("")
+  @unittest.skip("need to handle MOD")
   def test_eye(self):
     print(Tensor.eye(10).numpy())
 
-  @unittest.skip("")
   def test_split(self):
     tensors = Tensor.arange(16).reshape((4,4)).split((2,2))
-    print(tensors[1].numpy())
+    ret = tensors[1].tolist()
+    assert ret == [
+      [8, 9, 10, 11],
+      [12, 13, 14, 15]
+    ]
 
   def test_chunk(self):
     t = Tensor.arange(13).repeat((8, 1))

From 31b1d383857481a7a9bd6cd078bbce5765f80d67 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:51:33 +0800
Subject: [PATCH 067/188] remove __get__ for more explicit assignment

---
 tinygrad/renderer/asm.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 0bbfde6bd3c32..d31b748b6c84f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -181,8 +181,6 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     self.cur_step = 0
     self.kernel: list[str] = []
 
-  def __getitem__(self, _key: UOp) -> RegBase:
-    return self.assign(_key)
 
   def flush_kernel(self) -> list[str]:
     ret = self.kernel

From 06c2a8556b3611ac240e44216676f2a887db6a00 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:54:41 +0800
Subject: [PATCH 068/188] explicit number of register

---
 tinygrad/renderer/asm.py | 28 ++++++++++++----------------
 1 file changed, 12 insertions(+), 16 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d31b748b6c84f..0ee8d0a513ea0 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -169,7 +169,7 @@ def copy(self, dst: RegBase) -> list[str]:
   5: 9, #R9 
 }
 class Allocator:
-  def __init__(self, num_ireg: int, num_freg: int = 0):
+  def __init__(self, num_ireg: int, num_freg: int):
     self.pools: dict[type[RegBase], list[RegBase]] = {
       IReg: [IReg(i) for i in range(num_ireg)],
       FReg: [FReg(i) for i in range(num_freg)]
@@ -181,7 +181,6 @@ def __init__(self, num_ireg: int, num_freg: int = 0):
     self.cur_step = 0
     self.kernel: list[str] = []
 
-
   def flush_kernel(self) -> list[str]:
     ret = self.kernel
     self.kernel = []
@@ -762,9 +761,6 @@ def __init__(self) -> None:
     self.x86 = arch == "x86_64"
     assert self.arm ^ self.x86
 
-  def __getitem__(self, key: UOp):
-    return self.r[key]
-
   def render(self, uops:List[UOp]) -> str:
     gen_regs = [f"x{i}" for i in range(0, 31)]
     float_regs = [f"D{i}" for i in range(0,32)]
@@ -885,7 +881,7 @@ def test_to_hex(self):
 
 class TestAllocatorExpire(unittest.TestCase):
   def setUp(self):
-    self.a = Allocator(16)
+    self.a = Allocator(16, 0)
     uop1 = UOp(Ops.CONST, arg=1)
     uop2 = UOp(Ops.CONST, arg=2)
     self.uop1, self.uop2 = uop1, uop2
@@ -920,7 +916,7 @@ def test_expire_reg_none(self):
 
 class TestAllocatorShare(unittest.TestCase):
   def setUp(self):
-    self.a = Allocator(16)
+    self.a = Allocator(16, 0)
     uop1 = UOp(Ops.CONST, arg=1)
     uop2 = UOp(Ops.CONST, arg=2)
     self.uop1, self.uop2 = uop1, uop2
@@ -945,7 +941,7 @@ def test_expire_both(self):
 
 class TestAllocatorSpill(unittest.TestCase):
   def setUp(self):
-    self.a = Allocator(2)
+    self.a = Allocator(2, 0)
     uop1 = UOp(Ops.CONST, arg=1)
     uop2 = UOp(Ops.CONST, arg=2)
     uop3 = UOp(Ops.CONST, arg=3)
@@ -1039,7 +1035,7 @@ class TestAllocatorStackAll(unittest.TestCase):
   be saved in stack
   """
   def setUp(self):
-    self.a = Allocator(16)
+    self.a = Allocator(16, 0)
     uop1 = UOp(Ops.RANGE)
     self.uop1 = uop1
     var = Variable(uop1, 0, 10)
@@ -1070,7 +1066,7 @@ def _setup(self):
     self.a.uops[self.uop3] = self.var3
     self.a.uops[self.uop4] = self.var4
   def test_exclude(self):
-    self.a = Allocator(2)
+    self.a = Allocator(2, 0)
     self._setup()
     reg1 = self.a.assign(self.uop1)
     reg2 = self.a.assign(self.uop2)
@@ -1079,39 +1075,39 @@ def test_exclude(self):
     assert self.var2.reg == IReg(1)
     assert self.var3.reg == IReg(0)
   def test_exclude_not_enough_reg(self):
-    self.a = Allocator(1)
+    self.a = Allocator(1, 0)
     self._setup()
     self.a.assign(self.uop2)
     self.a.assign(self.uop3)
   def test_exclude_not_enough_reg_raise(self):
-    self.a = Allocator(1)
+    self.a = Allocator(1, 0)
     self._setup()
     reg2 = self.a.assign(self.uop2)
     with self.assertRaises(Exception):
       self.a.assign(self.uop3, excludes=[reg2])
   def test_reserve(self):
-    self.a = Allocator(2)
+    self.a = Allocator(2, 0)
     self._setup()
     self.a.assign(self.uop1)
     self.a.assign(self.uop2, reserve=True)
     self.a.assign(self.uop3)
     assert self.var3.reg == IReg(0)
   def test_reserve_not_enough_reg(self):
-    self.a = Allocator(2)
+    self.a = Allocator(2, 0)
     self._setup()
     self.a.assign(self.uop1, reserve=True)
     self.a.assign(self.uop2, reserve=True)
     with self.assertRaises(Exception):
       self.a.assign(self.uop3)
   def test_reserve_release(self):
-    self.a = Allocator(2)
+    self.a = Allocator(2, 0)
     self._setup()
     self.a.assign(self.uop1, reserve=True)
     reg2 = self.a.assign(self.uop2, reserve=True)
     self.a.release(reg2)
     self.a.assign(self.uop3)
   def test_reserve_not_enough_reg_pair(self):
-    self.a = Allocator(3)
+    self.a = Allocator(3, 0)
     self._setup()
     self.a.assign(self.uop1, reserve=True)
     self.a.assign(self.uop2, reserve=True)

From a2db5d478301f326306e3606aa011142dc9adab9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 10:59:02 +0800
Subject: [PATCH 069/188] alloc return just a reg

---
 tinygrad/renderer/asm.py | 41 ++++++++++++++++++++++++++++++++--------
 1 file changed, 33 insertions(+), 8 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 0ee8d0a513ea0..9883e80c66993 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -189,12 +189,12 @@ def flush_kernel(self) -> list[str]:
   def alloc(self, excludes: list[RegBase]=[], reg_type: Optional[type[RegBase]]=None,
             exclude_regs: list[RegBase]=[],
             debug:bool=False
-            ) -> tuple[RegBase, list[str]]:
+            ) -> RegBase:
     if reg_type is not None:
       pool = self.pools[reg_type]
       if len(pool):
         while (reg:=pool.pop(0)) in self.blocked: pass
-        return reg, []
+        return reg
       else:
         vars_in_regs = []
         for u, var in self.uops.items():
@@ -208,7 +208,7 @@ def alloc(self, excludes: list[RegBase]=[], reg_type: Optional[type[RegBase]]=No
         last_ending_var, *_ = sorted_vars
         self.move_var_to_stack(last_ending_var)
         reg = self.pools[reg_type].pop(0)
-        return reg, []
+        return reg
     else: raise Exception("Dead branch")
 
   def share(self, dst: UOp, src: UOp):
@@ -250,7 +250,7 @@ def assign(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool=False,
     var = self.uops[_key]
     if var.reg is not None:
       return var.reg
-    reg, kernel = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
+    reg = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
       self.kernel.extend(var.load(reg, "stack"))
     if reserve: self.reserved[reg] = 1
@@ -300,6 +300,31 @@ def free_expired(self, i: int):
         pool.insert(0, reg)
         if self.reserved.get(reg):
           del self.reserved[reg]
+  def _spill(self, reg: RegBase) -> None:
+    pool = self.pools[type(reg)]
+    vars = self._find_vars_holding_reg(reg)
+    for var in vars:
+      self.kernel.extend(var.store())
+      var.reg = None
+  def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]=[]):
+    candidates: list[tuple[UOp, Variable]] = []
+    for u, v in self.uops.items():
+      if v.reg is not None:
+        candidates.append((u, v))
+    candidates = [(u,v) for u, v in candidates if type(v.reg) == reg_type]
+    candidates = [(u,v) for u, v in candidates if v.reg not in self.reserved]
+    candidates = [(u,v) for u, v in candidates if v.reg not in self.blocked]
+    candidates = [(u,v) for u, v in candidates if v.reg not in excludes]
+    assert len(candidates), "no candidates left"
+    candidates = sorted(candidates, key=lambda u_v: u_v[1].end, reverse=True)
+    assert len(candidates) >= num, "Not enough registers to fulfill spill"
+    candidates = candidates[:num]
+    return candidates
+  def _find_vars_holding_reg(self, reg: RegBase) -> list[Variable]:
+    vars: list[Variable] = []
+    for v in self.uops.values():
+      if v.reg == reg: vars.append(v)
+    return vars
 
 x86_params_mapping: dict[int, int] = {
   0: 7, #R7 (rdi)
@@ -420,7 +445,7 @@ def const(ctx, x):
     if x.dtype.itemsize == 4: data_type = ".single"
     else: data_type = ".double"
     ctx.mem.append((label, f"{data_type} {x.arg}"))
-    temp_reg, kernel = ctx.r.alloc([reg], IReg)
+    temp_reg = ctx.r.alloc([reg], IReg)
     ctx.r.return_reg(temp_reg)
     return [f"adrp {temp_reg}, {label}",
       f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]
@@ -490,7 +515,7 @@ def to_bool(ctx, x, a):
   dst = ctx.r.assign(x, reg_type=IReg)
   exclude_dst_reg = [dst] if reg_type == IReg else []
   src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-  temp_reg, _ = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
+  temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
   ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype):
@@ -522,8 +547,8 @@ def float_cmp(ctx, x, a, b):
   exclude_dst = [dst] if reg_type == IReg else []
   src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
   src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
-  temp_reg, _ = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=reg_type)
-  temp_reg_2, _ = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=IReg)
+  temp_reg = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=reg_type)
+  temp_reg_2 = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=IReg)
   assert temp_reg != temp_reg_2
   ctx.r.return_reg(temp_reg)
   ctx.r.return_reg(temp_reg_2)

From 21df9b6385f0f025f225855a03c4eb331a2b610a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 12:17:09 +0800
Subject: [PATCH 070/188] fix alloc from pool when regs are blocked

---
 tinygrad/renderer/asm.py | 48 ++++++++++++++++++++++------------------
 1 file changed, 26 insertions(+), 22 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9883e80c66993..70e3bb026364d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -186,30 +186,34 @@ def flush_kernel(self) -> list[str]:
     self.kernel = []
     return ret
 
-  def alloc(self, excludes: list[RegBase]=[], reg_type: Optional[type[RegBase]]=None,
-            exclude_regs: list[RegBase]=[],
+  def alloc(self, reg_type: type[RegBase],
+            excludes: list[RegBase]=[],
             debug:bool=False
             ) -> RegBase:
-    if reg_type is not None:
-      pool = self.pools[reg_type]
-      if len(pool):
-        while (reg:=pool.pop(0)) in self.blocked: pass
+    pool = self.pools[reg_type]
+    if len(pool):
+      reg2 = None
+      i = None
+      for _i, _reg in enumerate(pool):
+        if _reg not in self.blocked:
+          i = _i
+          break
+      if i is not None:
+        reg = pool.pop(i)
         return reg
-      else:
-        vars_in_regs = []
-        for u, var in self.uops.items():
-          if var.reg is not None and var.reg not in excludes and var.reg not in self.reserved \
-            and isinstance(var.reg, reg_type):
-            vars_in_regs.append(var)
-        if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
-        if debug:
-          print(f"{vars_in_regs=}")
-        sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
-        last_ending_var, *_ = sorted_vars
-        self.move_var_to_stack(last_ending_var)
-        reg = self.pools[reg_type].pop(0)
-        return reg
-    else: raise Exception("Dead branch")
+    vars_in_regs = []
+    for u, var in self.uops.items():
+      if var.reg is not None and var.reg not in excludes and var.reg not in self.reserved \
+        and isinstance(var.reg, reg_type):
+        vars_in_regs.append(var)
+    if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
+    if debug:
+      print(f"{vars_in_regs=}")
+    sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
+    last_ending_var, *_ = sorted_vars
+    self.move_var_to_stack(last_ending_var)
+    reg = self.pools[reg_type].pop(0)
+    return reg
 
   def share(self, dst: UOp, src: UOp):
     dst_var, src_var = self.uops[dst], self.uops[src]
@@ -445,7 +449,7 @@ def const(ctx, x):
     if x.dtype.itemsize == 4: data_type = ".single"
     else: data_type = ".double"
     ctx.mem.append((label, f"{data_type} {x.arg}"))
-    temp_reg = ctx.r.alloc([reg], IReg)
+    temp_reg = ctx.r.alloc(IReg, [reg])
     ctx.r.return_reg(temp_reg)
     return [f"adrp {temp_reg}, {label}",
       f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]

From 146fb685922495721ae29b7bcedfaa0a76b5614a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 15:26:50 +0800
Subject: [PATCH 071/188] _spill method

---
 tinygrad/renderer/asm.py | 20 +++++++++-----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 70e3bb026364d..86d02550af2ed 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -202,17 +202,11 @@ def alloc(self, reg_type: type[RegBase],
         reg = pool.pop(i)
         return reg
     vars_in_regs = []
-    for u, var in self.uops.items():
-      if var.reg is not None and var.reg not in excludes and var.reg not in self.reserved \
-        and isinstance(var.reg, reg_type):
-        vars_in_regs.append(var)
-    if len(vars_in_regs) == 0: raise Exception("No avaialble registers")
-    if debug:
-      print(f"{vars_in_regs=}")
-    sorted_vars = sorted(vars_in_regs, key=lambda i: i.end, reverse=True)
-    last_ending_var, *_ = sorted_vars
-    self.move_var_to_stack(last_ending_var)
-    reg = self.pools[reg_type].pop(0)
+    candidates = self._find_spill_candidates(1, reg_type, excludes)
+    u, var = candidates[0]
+    reg = var.reg
+    assert reg is not None
+    self._spill(reg)
     return reg
 
   def share(self, dst: UOp, src: UOp):
@@ -308,6 +302,10 @@ def _spill(self, reg: RegBase) -> None:
     pool = self.pools[type(reg)]
     vars = self._find_vars_holding_reg(reg)
     for var in vars:
+      assert var.reg is not None
+      if var.stack is None:
+        self.stack_size += (var.reg.size // 8)
+        var.stack = self.stack_size
       self.kernel.extend(var.store())
       var.reg = None
   def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]=[]):

From 11a426525ed7c29b1a0003bf94570219b267ef14 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 15:46:34 +0800
Subject: [PATCH 072/188] assign requires explicit reg type

---
 tinygrad/renderer/asm.py | 83 ++++++++++++++++++----------------------
 1 file changed, 38 insertions(+), 45 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 86d02550af2ed..f5af66dfadd3f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -234,20 +234,13 @@ def save_var_to_stack(self, v: Variable):
     k = v.store("stack")
     self.kernel.extend(k)
 
-  def assign(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool=False,
-             reg_type: Optional[type[RegBase]]=IReg,
+  def assign(self, _key: UOp,
+             reg_type: type[RegBase],
+             excludes: list[RegBase]=[], reserve: bool=False,
              debug:bool=False,
              ) -> RegBase:
-    if debug:
-      print(f"\nassigning {_key=}")
-      print(f"{excludes=}")
-      print(f"{reg_type=}")
-      print("")
-    if _key not in self.uops:
-      raise Exception("Attempting to access a non-existent variable, maybe expired?")
     var = self.uops[_key]
-    if var.reg is not None:
-      return var.reg
+    if var.reg is not None: return var.reg
     reg = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
       self.kernel.extend(var.load(reg, "stack"))
@@ -256,15 +249,15 @@ def assign(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool=False,
     assert var.reg is not None
     return reg
   def assign_i8(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, excludes, reserve, reg_type=IReg).render8()
+    return self.assign(_key, IReg, excludes, reserve).render8()
   def assign_i32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, excludes, reserve, reg_type=IReg).render32()
+    return self.assign(_key, IReg, excludes, reserve).render32()
   def assign_i64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, excludes, reserve, reg_type=IReg).render64()
+    return self.assign(_key, IReg, excludes, reserve).render64()
   def assign_f32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, excludes, reserve, reg_type=FReg).render32()
+    return self.assign(_key, FReg, excludes, reserve).render32()
   def assign_f64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, excludes, reserve, reg_type=FReg).render64()
+    return self.assign(_key, FReg, excludes, reserve).render64()
   def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
     pool = self.pools[type(reg)]
     var = self.uops[_key]
@@ -914,8 +907,8 @@ def setUp(self):
     self.uop1, self.uop2 = uop1, uop2
     self.a.uops[uop1] = Variable(uop1, 0, 2)
     self.a.uops[uop2] = Variable(uop2, 0, 10)
-    self.a.assign(uop1, reserve=True)
-    self.a.assign(uop2, reserve=True)
+    self.a.assign(uop1, IReg, reserve=True)
+    self.a.assign(uop2, IReg, reserve=True)
     assert len(self.a.uops) == 2
     assert len(self.a.reserved) == 2
   def tearDown(self): del self.a, self.uop1, self.uop2
@@ -950,7 +943,7 @@ def setUp(self):
     self.var1, self.var2 = Variable(uop1, 0, 2), Variable(uop2, 0, 10)
     self.a.uops[uop1] = self.var1
     self.a.uops[uop2] = self.var2
-    self.a.assign(uop1, reserve=True)
+    self.a.assign(uop1, IReg, reserve=True)
     self.a.share(uop2, uop1)
     
   def test_share_regs(self):
@@ -976,12 +969,12 @@ def setUp(self):
     self.a.uops[uop1] = Variable(uop1, 0, 9)
     self.a.uops[uop2] = Variable(uop2, 0, 10)
     self.a.uops[uop3] = Variable(uop3, 0, 11)
-    self.a.assign(uop1)
-    self.a.assign(uop2)
+    self.a.assign(uop1, IReg)
+    self.a.assign(uop2, IReg)
   def tearDown(self): del self.uop1, self.uop2, self.uop3, self.a
 
   def test_spill(self):
-    reg = self.a.assign(self.uop3)
+    reg = self.a.assign(self.uop3, IReg)
     kernel = self.a.flush_kernel()
     assert reg == IReg(1)
     assert self.a.uops[self.uop1].reg   is not None
@@ -998,7 +991,7 @@ def test_spill_with_stack_load(self):
     self.a.uops[self.uop2].stack = 0
     self.a.uops[self.uop3].stack = 8
     self.a.stack_size = 16
-    reg = self.a.assign(self.uop3)
+    reg = self.a.assign(self.uop3, IReg)
     kernel = self.a.flush_kernel()
     assert self.a.uops[self.uop2].stack == 0
     assert self.a.uops[self.uop3].stack == 8
@@ -1007,7 +1000,7 @@ def test_spill_with_stack_load(self):
 
   def test_spill_with_stack_str(self):
     assert self.a.stack_size == 0
-    self.a.assign(self.uop3)
+    self.a.assign(self.uop3, IReg)
     assert self.a.stack_size == 8
     assert self.a.uops[self.uop2].stack == 8
 
@@ -1068,7 +1061,7 @@ def setUp(self):
     var = Variable(uop1, 0, 10)
     var.stack = 4
     self.a.uops[uop1] = var
-    self.a.assign(uop1)
+    self.a.assign(uop1, IReg)
     self.a.flush_kernel()
   def tearDown(self): del self.a
 
@@ -1095,52 +1088,52 @@ def _setup(self):
   def test_exclude(self):
     self.a = Allocator(2, 0)
     self._setup()
-    reg1 = self.a.assign(self.uop1)
-    reg2 = self.a.assign(self.uop2)
-    reg3 = self.a.assign(self.uop3, excludes=[reg2])
+    reg1 = self.a.assign(self.uop1, IReg)
+    reg2 = self.a.assign(self.uop2, IReg)
+    reg3 = self.a.assign(self.uop3, IReg, excludes=[reg2])
     assert self.var1.reg is None and self.var1.stack == 8
     assert self.var2.reg == IReg(1)
     assert self.var3.reg == IReg(0)
   def test_exclude_not_enough_reg(self):
     self.a = Allocator(1, 0)
     self._setup()
-    self.a.assign(self.uop2)
-    self.a.assign(self.uop3)
+    self.a.assign(self.uop2, IReg)
+    self.a.assign(self.uop3, IReg)
   def test_exclude_not_enough_reg_raise(self):
     self.a = Allocator(1, 0)
     self._setup()
-    reg2 = self.a.assign(self.uop2)
+    reg2 = self.a.assign(self.uop2, IReg)
     with self.assertRaises(Exception):
-      self.a.assign(self.uop3, excludes=[reg2])
+      self.a.assign(self.uop3, IReg, excludes=[reg2])
   def test_reserve(self):
     self.a = Allocator(2, 0)
     self._setup()
-    self.a.assign(self.uop1)
-    self.a.assign(self.uop2, reserve=True)
-    self.a.assign(self.uop3)
+    self.a.assign(self.uop1, IReg)
+    self.a.assign(self.uop2, IReg, reserve=True)
+    self.a.assign(self.uop3, IReg)
     assert self.var3.reg == IReg(0)
   def test_reserve_not_enough_reg(self):
     self.a = Allocator(2, 0)
     self._setup()
-    self.a.assign(self.uop1, reserve=True)
-    self.a.assign(self.uop2, reserve=True)
+    self.a.assign(self.uop1, IReg, reserve=True)
+    self.a.assign(self.uop2, IReg, reserve=True)
     with self.assertRaises(Exception):
-      self.a.assign(self.uop3)
+      self.a.assign(self.uop3, IReg)
   def test_reserve_release(self):
     self.a = Allocator(2, 0)
     self._setup()
-    self.a.assign(self.uop1, reserve=True)
-    reg2 = self.a.assign(self.uop2, reserve=True)
+    self.a.assign(self.uop1, IReg, reserve=True)
+    reg2 = self.a.assign(self.uop2, IReg, reserve=True)
     self.a.release(reg2)
-    self.a.assign(self.uop3)
+    self.a.assign(self.uop3, IReg)
   def test_reserve_not_enough_reg_pair(self):
     self.a = Allocator(3, 0)
     self._setup()
-    self.a.assign(self.uop1, reserve=True)
-    self.a.assign(self.uop2, reserve=True)
+    self.a.assign(self.uop1, IReg, reserve=True)
+    self.a.assign(self.uop2, IReg, reserve=True)
     with self.assertRaises(Exception):
-      reg3 = self.a.assign(self.uop3)
-      self.a.assign(self.uop4, excludes=[reg3])
+      reg3 = self.a.assign(self.uop3, IReg)
+      self.a.assign(self.uop4, IReg, excludes=[reg3])
 
 class TestAllocatorAluShareReg(unittest.TestCase):
   def test_add_no_share(self):

From 5ea59b6effff34f6e80bd0466bc8e0723ace284e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 16:00:53 +0800
Subject: [PATCH 073/188] assign_reg and alloc_reg

---
 tinygrad/renderer/asm.py | 26 ++++++++++++--------------
 1 file changed, 12 insertions(+), 14 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f5af66dfadd3f..a858816a2065f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -243,10 +243,9 @@ def assign(self, _key: UOp,
     if var.reg is not None: return var.reg
     reg = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
     if var.stack is not None:
-      self.kernel.extend(var.load(reg, "stack"))
+      self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
     var.reg = reg
-    assert var.reg is not None
     return reg
   def assign_i8(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, IReg, excludes, reserve).render8()
@@ -258,22 +257,21 @@ def assign_f32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = Fals
     return self.assign(_key, FReg, excludes, reserve).render32()
   def assign_f64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, FReg, excludes, reserve).render64()
-  def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False):
+  def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False) -> None:
+    uop = _key
+    var = self.uops[uop]
+    self.alloc_reg(reg)
+    if var.reg is not None:
+      self.kernel.extend(var.copy(reg))
+    var.reg = reg
+
+  def alloc_reg(self, reg: RegBase) -> None:
     pool = self.pools[type(reg)]
-    var = self.uops[_key]
     if reg in pool:
-      if var.reg is not None: self.kernel.extend(var.copy(reg))
-      var.reg = reg
       pool.pop(pool.index(reg))
     else:
-      vars = [v for v in self.uops.values() if v.reg == reg]
-      assert len(vars) == 1
-      var2 = vars[0]
-      self.save_var_to_stack(var2)
-      var2.reg = None
-      if var.reg is not None: self.kernel.extend(var.copy(reg))
-      var.reg = reg
-  
+      self._spill(reg)
+
   def release(self, reg: RegBase): del self.reserved[reg] 
 
   def free_expired(self, i: int):

From 4fc04e1b0ed49ace5f70e730a823468f9b1cf5cc Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 18:08:41 +0800
Subject: [PATCH 074/188] save_var_to_stack is handled by _spill

---
 tinygrad/renderer/asm.py | 10 +---------
 1 file changed, 1 insertion(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a858816a2065f..97146fbece831 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -223,17 +223,9 @@ def move_var_to_stack(self, v: Variable):
     assert reg
     self.return_reg(reg)
     assert reg is not None
-    ret = self.save_var_to_stack(v)
+    self._spill(reg)
     v.reg = None
 
-  def save_var_to_stack(self, v: Variable):
-    assert v.reg is not None
-    if v.stack is None:
-      self.stack_size += (v.reg.size // 8)
-      v.stack = self.stack_size
-    k = v.store("stack")
-    self.kernel.extend(k)
-
   def assign(self, _key: UOp,
              reg_type: type[RegBase],
              excludes: list[RegBase]=[], reserve: bool=False,

From 861ccc3398d827ac43cfe3555048e123fd5e6881 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 24 Jul 2025 19:20:35 +0800
Subject: [PATCH 075/188] alloc multiple drives alloc

---
 tinygrad/renderer/asm.py | 38 ++++++++++++++++++++++----------------
 1 file changed, 22 insertions(+), 16 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 97146fbece831..7bab995ac95b8 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -190,24 +190,30 @@ def alloc(self, reg_type: type[RegBase],
             excludes: list[RegBase]=[],
             debug:bool=False
             ) -> RegBase:
+    return self.alloc_multiple(1, reg_type, excludes)[0]
+
+  def alloc_multiple(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]):
     pool = self.pools[reg_type]
+    regs = []
     if len(pool):
-      reg2 = None
-      i = None
-      for _i, _reg in enumerate(pool):
-        if _reg not in self.blocked:
-          i = _i
-          break
-      if i is not None:
-        reg = pool.pop(i)
-        return reg
-    vars_in_regs = []
-    candidates = self._find_spill_candidates(1, reg_type, excludes)
-    u, var = candidates[0]
-    reg = var.reg
-    assert reg is not None
-    self._spill(reg)
-    return reg
+      idx, count = 0, 0
+      while idx < len(pool) and count < num:
+        _reg = pool[idx]
+        if _reg not in self.blocked and _reg not in excludes and _reg not in self.reserved:
+          regs.append(pool.pop(idx))
+          count += 1
+        else:
+          idx += 1
+    if len(regs) == num:
+      return regs
+    num_to_spill = num - len(regs)
+    candidates = self._find_spill_candidates(num_to_spill, reg_type, excludes)
+    for uop, var in candidates:
+      reg = var.reg
+      assert reg is not None
+      self._spill(reg)
+      regs.append(reg)
+    return regs
 
   def share(self, dst: UOp, src: UOp):
     dst_var, src_var = self.uops[dst], self.uops[src]

From f0487ef8827c10e9ba6ee9f25560f68fb352056e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 10:15:23 +0800
Subject: [PATCH 076/188] assign multiple implementation

---
 tinygrad/renderer/asm.py | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 7bab995ac95b8..a351316cfe3f3 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -270,6 +270,25 @@ def alloc_reg(self, reg: RegBase) -> None:
     else:
       self._spill(reg)
 
+  def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: list[RegBase]=[]) -> list[RegBase]:
+    regs: list[Optional[RegBase]] = [None] * len(uops)
+    need_alloc = [i for i, uop in enumerate(uops) if self.uops[uop].reg is None]
+    for i, uop in enumerate(uops):
+      _reg = self.uops[uop].reg
+      if _reg is None:
+        need_alloc.append(i)
+      else:
+        regs[i] = _reg
+    alloc_regs = self.alloc_multiple(len(need_alloc), reg_type, excludes)
+    for i, reg in zip(need_alloc, alloc_regs):
+      uop = uops[i]
+      var = self.uops[uop]
+      var.reg = reg
+      regs[i] = reg
+    for reg in regs: assert reg is not None
+    regs2 = cast(list[RegBase], regs)
+    return regs2
+
   def release(self, reg: RegBase): del self.reserved[reg] 
 
   def free_expired(self, i: int):

From a911c540d493ef334e804e3aae837ae9af0d8993 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 10:21:49 +0800
Subject: [PATCH 077/188] float_cmp can use alloc_multiple

---
 tinygrad/renderer/asm.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a351316cfe3f3..d705e52d09e29 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -557,9 +557,12 @@ def float_cmp(ctx, x, a, b):
   exclude_dst = [dst] if reg_type == IReg else []
   src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
   src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
-  temp_reg = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=reg_type)
-  temp_reg_2 = ctx.r.alloc(excludes=[src_a, src_b]+exclude_dst, reg_type=IReg)
-  assert temp_reg != temp_reg_2
+  if reg_type == IReg:
+    temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
+    temp_reg, temp_reg_2 = temp_regs[0], temp_regs[1]
+  else:
+    temp_reg = ctx.r.alloc(reg_type, [src_a, src_b, dst])
+    temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)
   ctx.r.return_reg(temp_reg_2)
   if Arch.arm:

From 942831e538d125ae4bdf7197b194608fa3c2f134 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 11:51:50 +0800
Subject: [PATCH 078/188] set up the branch for assign_multiple

---
 tinygrad/renderer/asm.py | 26 +++++++++++++++++++-------
 1 file changed, 19 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d705e52d09e29..946107b7c7801 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -239,7 +239,7 @@ def assign(self, _key: UOp,
              ) -> RegBase:
     var = self.uops[_key]
     if var.reg is not None: return var.reg
-    reg = self.alloc(excludes=excludes, reg_type=reg_type, debug=debug)
+    reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
@@ -272,7 +272,7 @@ def alloc_reg(self, reg: RegBase) -> None:
 
   def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: list[RegBase]=[]) -> list[RegBase]:
     regs: list[Optional[RegBase]] = [None] * len(uops)
-    need_alloc = [i for i, uop in enumerate(uops) if self.uops[uop].reg is None]
+    need_alloc: list[int] = []
     for i, uop in enumerate(uops):
       _reg = self.uops[uop].reg
       if _reg is None:
@@ -520,13 +520,25 @@ def assign(ctx, x):
 def to_bool(ctx, x, a):
   if dtypes.is_int(a.dtype):
     reg_type = IReg
+    if True:
+      dst = ctx.r.assign(x, reg_type=IReg)
+      exclude_dst_reg = [dst] if reg_type == IReg else []
+      src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
+      regs = [dst, src]
+    else:
+      regs = ctx.r.assign_multiple([x, a], reg_type=IReg)
+      dst, src = regs[0], regs[1]
+    print(f"{regs=}")
+    print()
+    temp_reg = ctx.r.alloc(excludes=regs, reg_type=reg_type)
+    ctx.r.return_reg(temp_reg)
   else:
     reg_type = FReg
-  dst = ctx.r.assign(x, reg_type=IReg)
-  exclude_dst_reg = [dst] if reg_type == IReg else []
-  src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-  temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
-  ctx.r.return_reg(temp_reg)
+    dst = ctx.r.assign(x, reg_type=IReg)
+    exclude_dst_reg = [dst] if reg_type == IReg else []
+    src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
+    temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
+    ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       cmp = f"cmp {src}, #0"

From da88c15bfdc8a9c1f62cb76693d19af5b2836c03 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 13:46:50 +0800
Subject: [PATCH 079/188] need to load val into reg is stack is set up for a
 var

---
 tinygrad/renderer/asm.py | 22 +++++++++++++++-------
 1 file changed, 15 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 946107b7c7801..48b8fea8f105d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -283,6 +283,8 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
     for i, reg in zip(need_alloc, alloc_regs):
       uop = uops[i]
       var = self.uops[uop]
+      if var.stack is not None:
+        self.kernel.extend(var.load(reg))
       var.reg = reg
       regs[i] = reg
     for reg in regs: assert reg is not None
@@ -573,7 +575,7 @@ def float_cmp(ctx, x, a, b):
     temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
     temp_reg, temp_reg_2 = temp_regs[0], temp_regs[1]
   else:
-    temp_reg = ctx.r.alloc(reg_type, [src_a, src_b, dst])
+    temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)
   ctx.r.return_reg(temp_reg_2)
@@ -610,7 +612,6 @@ def float_cmp(ctx, x, a, b):
         f"xor {dst}, {dst}",
         f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
         f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-        f"setp {temp_reg_2.render8()}",
         f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
       ]
 
@@ -620,9 +621,14 @@ def _where(ctx, x):
   cond, t, f = x.src
   _cond = ctx.r.assign(cond, reg_type=IReg)
   exclude_cond = [cond] if reg_type == IReg else []
-  _dst = ctx.r.assign(x, reg_type=reg_type, excludes=exclude_cond)
-  _t = ctx.r.assign(t, reg_type=reg_type, excludes=[x]+exclude_cond)
-  _f = ctx.r.assign(f, reg_type=reg_type, excludes=[t, x]+exclude_cond)
+  if False:
+    _dst = ctx.r.assign(x, reg_type=reg_type, excludes=exclude_cond)
+    _t = ctx.r.assign(t, reg_type=reg_type, excludes=[x]+exclude_cond)
+    _f = ctx.r.assign(f, reg_type=reg_type, excludes=[t, x]+exclude_cond)
+  else:
+    _dst, _t, _f = ctx.r.assign_multiple([x,t,f], reg_type=reg_type,
+      excludes=exclude_cond)
+
   if Arch.arm:
     if dtypes.is_int(x.dtype): op = "csel"
     else: op = "fcsel"
@@ -872,8 +878,10 @@ def render(self, uops:List[UOp]) -> str:
         if (l:=rewriter.rewrite(u, ctx=self)) is None:
           raise RuntimeError(f"failed to render {u.op} with {u.dtype} srcs {[x.dtype for x in u.src]}")
         l = cast(list[str], l)
-        l = ["", *r.flush_kernel(), *l]
+        l = [*r.flush_kernel(), *l, ""]
         if DEBUG.value >= 6:
+          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")]
+          l = [*uop_str, *l]
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
         kernel.extend(l)
@@ -919,7 +927,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/acosh/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/abs/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From bf6b91cf6c9d7e44efe8ee67e5ec7dfa0112dda1 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 13:52:35 +0800
Subject: [PATCH 080/188] alu uses assign_multiple

---
 tinygrad/renderer/asm.py | 13 +++++++++----
 1 file changed, 9 insertions(+), 4 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 48b8fea8f105d..ba54729ded5ad 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -408,10 +408,15 @@ def alu(ctx, x):
   reg_type = IReg if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else FReg
   src_regs = []
   excludes: List[RegBase] = []
-  for _src in x.src:
-    _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
-    excludes.append(_reg)
-    src_regs.append(_reg)
+  if False:
+    for _src in x.src:
+      _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
+      excludes.append(_reg)
+      src_regs.append(_reg)
+  else:
+    src_regs = ctx.r.assign_multiple(list(x.src), reg_type, excludes)
+    excludes = src_regs
+
   if ctx.r.uops[x.src[0]].end == ctx.r.cur_step:
     ctx.r.share(x, x.src[0])
     dst = src_regs[0]

From a90587f6e558465644c9a1ef46d7184c5878e4f2 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 13:54:38 +0800
Subject: [PATCH 081/188] _index uses assign_multiple

---
 tinygrad/renderer/asm.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ba54729ded5ad..81f70877de343 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -503,9 +503,13 @@ def endrange(ctx, x):
 
 def _index(ctx, x):
   src0, src1 = x.src[0], x.src[1]
-  src0_reg = ctx.r.assign(src0, reg_type=IReg)
+  if False:
+    src0_reg = ctx.r.assign(src0, reg_type=IReg)
+    src1_reg = ctx.r.assign(src1, excludes=[src0_reg], reg_type=IReg)
+  else:
+    regs = ctx.r.assign_multiple([src0, src1], IReg)
+    src0_reg, src1_reg = regs[0], regs[1]
   src0_str = src0_reg.render64()
-  src1_reg = ctx.r.assign(src1, excludes=[src0_reg], reg_type=IReg)
   src1_str = src1_reg.render64()
   reg = ctx.r.assign(x, excludes=[src0_reg, src1_reg], reg_type=IReg).render64()
   multiplier = src0.dtype.itemsize

From dfbe5830fa6f17f015301e3bf3549b627506a59b Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 13:56:11 +0800
Subject: [PATCH 082/188] cont'd

---
 tinygrad/renderer/asm.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 81f70877de343..f7c7714d112e6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -506,12 +506,12 @@ def _index(ctx, x):
   if False:
     src0_reg = ctx.r.assign(src0, reg_type=IReg)
     src1_reg = ctx.r.assign(src1, excludes=[src0_reg], reg_type=IReg)
+    reg = ctx.r.assign(x, excludes=[src0_reg, src1_reg], reg_type=IReg).render64()
   else:
-    regs = ctx.r.assign_multiple([src0, src1], IReg)
-    src0_reg, src1_reg = regs[0], regs[1]
+    regs = ctx.r.assign_multiple([src0, src1, x], IReg)
+    src0_reg, src1_reg, reg = regs[0], regs[1], regs[2]
   src0_str = src0_reg.render64()
   src1_str = src1_reg.render64()
-  reg = ctx.r.assign(x, excludes=[src0_reg, src1_reg], reg_type=IReg).render64()
   multiplier = src0.dtype.itemsize
   lsl = int(math.log2(multiplier))
   if Arch.arm:

From 7dd73f27b0798f011ad8b96018abdac544ce7816 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 13:56:38 +0800
Subject: [PATCH 083/188] to_bool uses assign_multiple

---
 tinygrad/renderer/asm.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f7c7714d112e6..34966a728c66f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -531,7 +531,7 @@ def assign(ctx, x):
 def to_bool(ctx, x, a):
   if dtypes.is_int(a.dtype):
     reg_type = IReg
-    if True:
+    if False:
       dst = ctx.r.assign(x, reg_type=IReg)
       exclude_dst_reg = [dst] if reg_type == IReg else []
       src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)

From 8cd33ea8706036c3badc4f2831754c9a1f70c0fe Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:00:08 +0800
Subject: [PATCH 084/188] to_bool uses assign_multiple, cont'd

---
 tinygrad/renderer/asm.py | 18 +++++++++++-------
 1 file changed, 11 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 34966a728c66f..be808238e21dd 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -539,17 +539,21 @@ def to_bool(ctx, x, a):
     else:
       regs = ctx.r.assign_multiple([x, a], reg_type=IReg)
       dst, src = regs[0], regs[1]
-    print(f"{regs=}")
-    print()
     temp_reg = ctx.r.alloc(excludes=regs, reg_type=reg_type)
     ctx.r.return_reg(temp_reg)
   else:
     reg_type = FReg
-    dst = ctx.r.assign(x, reg_type=IReg)
-    exclude_dst_reg = [dst] if reg_type == IReg else []
-    src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-    temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
-    ctx.r.return_reg(temp_reg)
+    if False:
+      dst = ctx.r.assign(x, reg_type=IReg)
+      exclude_dst_reg = [dst] if reg_type == IReg else []
+      src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
+      temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
+      ctx.r.return_reg(temp_reg)
+    else:
+      dst = ctx.r.assign(x, IReg)
+      src = ctx.r.assign(a, FReg)
+      temp_reg = ctx.r.alloc(FReg, [src])
+      ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       cmp = f"cmp {src}, #0"

From c5071257ccd1e1f1e32a6f8fbd9bba270146cba6 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:04:35 +0800
Subject: [PATCH 085/188] float_cmp to use assign_multiple

---
 tinygrad/renderer/asm.py | 18 +++++++++++-------
 1 file changed, 11 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index be808238e21dd..b3b3fed7bf2a0 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -578,16 +578,20 @@ def to_bool(ctx, x, a):
     ]
 
 def float_cmp(ctx, x, a, b):
-  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype): reg_type = IReg
-  else: reg_type = FReg
-  dst = ctx.r.assign(x, reg_type=IReg)
-  exclude_dst = [dst] if reg_type == IReg else []
-  src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-  src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
-  if reg_type == IReg:
+  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
+    reg_type = IReg
+    dst = ctx.r.assign(x, reg_type=IReg)
+    exclude_dst = [dst] if reg_type == IReg else []
+    src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
+    src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
     temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
     temp_reg, temp_reg_2 = temp_regs[0], temp_regs[1]
   else:
+    reg_type = FReg
+    dst = ctx.r.assign(x, reg_type=IReg)
+    exclude_dst = [dst] if reg_type == IReg else []
+    src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
+    src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
     temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)

From 126c62823a9527375d56cd76e8238af9318cc655 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:07:44 +0800
Subject: [PATCH 086/188] float_cmp uses assign_multiple

---
 tinygrad/renderer/asm.py | 26 +++++++++++++++++---------
 1 file changed, 17 insertions(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b3b3fed7bf2a0..f498f37a0f93d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -580,18 +580,26 @@ def to_bool(ctx, x, a):
 def float_cmp(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
     reg_type = IReg
-    dst = ctx.r.assign(x, reg_type=IReg)
-    exclude_dst = [dst] if reg_type == IReg else []
-    src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-    src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
+    if False:
+      dst = ctx.r.assign(x, reg_type=IReg)
+      exclude_dst = [dst]
+      src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
+      src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
+    else:
+      regs = ctx.r.assign_multiple([x, a, b], IReg)
+      dst, src_a, src_b = tuple(regs)
     temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
-    temp_reg, temp_reg_2 = temp_regs[0], temp_regs[1]
+    temp_reg, temp_reg_2 = tuple(temp_regs)
   else:
     reg_type = FReg
-    dst = ctx.r.assign(x, reg_type=IReg)
-    exclude_dst = [dst] if reg_type == IReg else []
-    src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-    src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
+    if False:
+      dst = ctx.r.assign(x, reg_type=IReg)
+      exclude_dst = []
+      src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
+      src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
+    else:
+      dst = ctx.r.assign(x, IReg)
+      src_a, src_b = tuple(ctx.r.assign_multiple([a, b], FReg))
     temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)

From 0a6384dadd55438892864e51c19d4cedaccdd88f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:17:44 +0800
Subject: [PATCH 087/188] refactor alu

---
 tinygrad/renderer/asm.py | 13 ++-----------
 1 file changed, 2 insertions(+), 11 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f498f37a0f93d..68d7d3c386626 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -406,22 +406,13 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
 def alu(ctx, x):
   dtype = x.src[0].dtype
   reg_type = IReg if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else FReg
-  src_regs = []
-  excludes: List[RegBase] = []
-  if False:
-    for _src in x.src:
-      _reg = ctx.r.assign(_src, excludes=excludes, reg_type=reg_type)
-      excludes.append(_reg)
-      src_regs.append(_reg)
-  else:
-    src_regs = ctx.r.assign_multiple(list(x.src), reg_type, excludes)
-    excludes = src_regs
+  src_regs = ctx.r.assign_multiple(list(x.src), reg_type)
 
   if ctx.r.uops[x.src[0]].end == ctx.r.cur_step:
     ctx.r.share(x, x.src[0])
     dst = src_regs[0]
   else:
-    dst = ctx.r.assign(x, excludes=excludes, reg_type=reg_type)
+    dst = ctx.r.assign(x, reg_type, src_regs)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   _dst = dst.render(dtype.itemsize)
   src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]

From 3a1da2adf5024332f8f54e6c7c103b9be97ac7ea Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:19:03 +0800
Subject: [PATCH 088/188] refactor

---
 tinygrad/renderer/asm.py | 19 ++++---------------
 1 file changed, 4 insertions(+), 15 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 68d7d3c386626..52df137129331 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -494,13 +494,8 @@ def endrange(ctx, x):
 
 def _index(ctx, x):
   src0, src1 = x.src[0], x.src[1]
-  if False:
-    src0_reg = ctx.r.assign(src0, reg_type=IReg)
-    src1_reg = ctx.r.assign(src1, excludes=[src0_reg], reg_type=IReg)
-    reg = ctx.r.assign(x, excludes=[src0_reg, src1_reg], reg_type=IReg).render64()
-  else:
-    regs = ctx.r.assign_multiple([src0, src1, x], IReg)
-    src0_reg, src1_reg, reg = regs[0], regs[1], regs[2]
+  regs = ctx.r.assign_multiple([src0, src1, x], IReg)
+  src0_reg, src1_reg, reg = regs
   src0_str = src0_reg.render64()
   src1_str = src1_reg.render64()
   multiplier = src0.dtype.itemsize
@@ -522,14 +517,8 @@ def assign(ctx, x):
 def to_bool(ctx, x, a):
   if dtypes.is_int(a.dtype):
     reg_type = IReg
-    if False:
-      dst = ctx.r.assign(x, reg_type=IReg)
-      exclude_dst_reg = [dst] if reg_type == IReg else []
-      src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-      regs = [dst, src]
-    else:
-      regs = ctx.r.assign_multiple([x, a], reg_type=IReg)
-      dst, src = regs[0], regs[1]
+    regs = ctx.r.assign_multiple([x, a], reg_type=IReg)
+    dst, src = regs
     temp_reg = ctx.r.alloc(excludes=regs, reg_type=reg_type)
     ctx.r.return_reg(temp_reg)
   else:

From d12ee778196e7a3c9fdfe7b4adca431dc153216e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:19:18 +0800
Subject: [PATCH 089/188] refactor

---
 tinygrad/renderer/asm.py | 15 ++++-----------
 1 file changed, 4 insertions(+), 11 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 52df137129331..8086d2d11e5fa 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -523,17 +523,10 @@ def to_bool(ctx, x, a):
     ctx.r.return_reg(temp_reg)
   else:
     reg_type = FReg
-    if False:
-      dst = ctx.r.assign(x, reg_type=IReg)
-      exclude_dst_reg = [dst] if reg_type == IReg else []
-      src = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst_reg)
-      temp_reg = ctx.r.alloc(excludes=[src]+exclude_dst_reg, reg_type=reg_type)
-      ctx.r.return_reg(temp_reg)
-    else:
-      dst = ctx.r.assign(x, IReg)
-      src = ctx.r.assign(a, FReg)
-      temp_reg = ctx.r.alloc(FReg, [src])
-      ctx.r.return_reg(temp_reg)
+    dst = ctx.r.assign(x, IReg)
+    src = ctx.r.assign(a, FReg)
+    temp_reg = ctx.r.alloc(FReg, [src])
+    ctx.r.return_reg(temp_reg)
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       cmp = f"cmp {src}, #0"

From b74597ff9764556eed44b9601517145ec12e9430 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:20:08 +0800
Subject: [PATCH 090/188] refactor

---
 tinygrad/renderer/asm.py | 14 ++++----------
 1 file changed, 4 insertions(+), 10 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 8086d2d11e5fa..bcd0d41b6764e 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -552,17 +552,11 @@ def to_bool(ctx, x, a):
 
 def float_cmp(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
-    reg_type = IReg
-    if False:
-      dst = ctx.r.assign(x, reg_type=IReg)
-      exclude_dst = [dst]
-      src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-      src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
-    else:
-      regs = ctx.r.assign_multiple([x, a, b], IReg)
-      dst, src_a, src_b = tuple(regs)
+    reg_type=IReg
+    regs = ctx.r.assign_multiple([x, a, b], IReg)
+    dst, src_a, src_b = tuple(regs)
     temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
-    temp_reg, temp_reg_2 = tuple(temp_regs)
+    temp_reg, temp_reg_2 = temp_regs
   else:
     reg_type = FReg
     if False:

From 899c8ae500d4fca3027d05d0e8d93738dd54017c Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:20:20 +0800
Subject: [PATCH 091/188] refactor

---
 tinygrad/renderer/asm.py | 10 ++--------
 1 file changed, 2 insertions(+), 8 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index bcd0d41b6764e..99e57654e4564 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -559,14 +559,8 @@ def float_cmp(ctx, x, a, b):
     temp_reg, temp_reg_2 = temp_regs
   else:
     reg_type = FReg
-    if False:
-      dst = ctx.r.assign(x, reg_type=IReg)
-      exclude_dst = []
-      src_a = ctx.r.assign(a, reg_type=reg_type, excludes=exclude_dst)
-      src_b = ctx.r.assign(b, excludes=[src_a] + exclude_dst, reg_type=reg_type)
-    else:
-      dst = ctx.r.assign(x, IReg)
-      src_a, src_b = tuple(ctx.r.assign_multiple([a, b], FReg))
+    dst = ctx.r.assign(x, IReg)
+    src_a, src_b = tuple(ctx.r.assign_multiple([a, b], FReg))
     temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)

From 4e8447744e3f395c936751fe18fab6f7c9f75014 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:20:38 +0800
Subject: [PATCH 092/188] refactor

---
 tinygrad/renderer/asm.py | 9 ++-------
 1 file changed, 2 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 99e57654e4564..36f7845a02916 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -607,13 +607,8 @@ def _where(ctx, x):
   cond, t, f = x.src
   _cond = ctx.r.assign(cond, reg_type=IReg)
   exclude_cond = [cond] if reg_type == IReg else []
-  if False:
-    _dst = ctx.r.assign(x, reg_type=reg_type, excludes=exclude_cond)
-    _t = ctx.r.assign(t, reg_type=reg_type, excludes=[x]+exclude_cond)
-    _f = ctx.r.assign(f, reg_type=reg_type, excludes=[t, x]+exclude_cond)
-  else:
-    _dst, _t, _f = ctx.r.assign_multiple([x,t,f], reg_type=reg_type,
-      excludes=exclude_cond)
+  _dst, _t, _f = ctx.r.assign_multiple([x,t,f], reg_type=reg_type,
+    excludes=exclude_cond)
 
   if Arch.arm:
     if dtypes.is_int(x.dtype): op = "csel"

From 6eb4755055f73c6fb8947caad0c8af9c81c4ee87 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:22:50 +0800
Subject: [PATCH 093/188] refactor

---
 tinygrad/renderer/asm.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 36f7845a02916..1fa7842d5b041 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -507,9 +507,8 @@ def _index(ctx, x):
 
 def assign(ctx, x):
   reg_type = IReg if dtypes.is_int(x.src[0].dtype) or dtypes.is_bool(x.src[0].dtype) else FReg
-  dst = ctx.r.assign(x, reg_type=reg_type)
   x_src_0_reg = ctx.r.uops[x.src[0]].reg
-  src = ctx.r.assign(x.src[1], excludes=[x_src_0_reg], reg_type=reg_type)
+  dst, src = ctx.r.assign_multiple([x, x.src[1]], excludes=[x_src_0_reg], reg_type=reg_type)
   opcode = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
   return [f"{opcode} {dst}, {src}"]

From 7339b8e151db9bad90fd9c6c2c4b0a4fd779fbfe Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 14:26:13 +0800
Subject: [PATCH 094/188] refactor

---
 tinygrad/renderer/asm.py | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 1fa7842d5b041..c2330ee600c38 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -553,13 +553,13 @@ def float_cmp(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
     reg_type=IReg
     regs = ctx.r.assign_multiple([x, a, b], IReg)
-    dst, src_a, src_b = tuple(regs)
+    dst, src_a, src_b = regs
     temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
     temp_reg, temp_reg_2 = temp_regs
   else:
     reg_type = FReg
     dst = ctx.r.assign(x, IReg)
-    src_a, src_b = tuple(ctx.r.assign_multiple([a, b], FReg))
+    src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
     temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)
@@ -651,9 +651,8 @@ def idiv(ctx, x):
     if mov2: ret += mov2
     return ret
   else:
-    _dividend = ctx.r.assign(dividend, reg_type=IReg)
-    _divisor = ctx.r.assign(divisor, reg_type=IReg)
-    _quotient = ctx.r.assign(x, reg_type=IReg)
+    _dividend, _divisor, _quotient = ctx.r.assign_multiple(
+      [dividend, divisor, x], IReg)
     ret = [
       f"sdiv {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
     ]

From f5b14525adaca316216a59d514d42a768abf8f80 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 15:19:02 +0800
Subject: [PATCH 095/188] standalone arm cmplt

---
 tinygrad/renderer/asm.py | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index c2330ee600c38..e8acd3b3b9950 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -600,6 +600,17 @@ def float_cmp(ctx, x, a, b):
         f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
       ]
 
+def cmplt_arm(ctx, x, a, b):
+  reg_type = IReg if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype) else FReg
+  regs = ctx.r.assign_multiple(uops=[x, a, b], reg_type=reg_type)
+  dst, src_a, src_b = regs
+  size = a.dtype.itemsize
+  return [
+    f"cmp {src_a.render(size)}, {src_b.render(size)}",   # Compare a and b
+    f"cset {dst}, lt"            # Set if less (mi = minus/Negative flag)
+  ]
+
+
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
   else: reg_type = FReg
@@ -725,6 +736,9 @@ def idiv(ctx, x):
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([
+  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.int),
+                                  UPat(name="b"))),
+   cmplt_arm),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),

From 2366ff9c3afceb3586e098a03d0bf6597201b26a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 15:25:15 +0800
Subject: [PATCH 096/188] standalone arm cmp for both ne and lt

---
 tinygrad/renderer/asm.py | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index e8acd3b3b9950..3b14c51ad918d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -600,17 +600,17 @@ def float_cmp(ctx, x, a, b):
         f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
       ]
 
-def cmplt_arm(ctx, x, a, b):
+def cmp_arm(ctx, x, a, b):
   reg_type = IReg if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype) else FReg
   regs = ctx.r.assign_multiple(uops=[x, a, b], reg_type=reg_type)
   dst, src_a, src_b = regs
   size = a.dtype.itemsize
+  cmp = "lt" if x.op is Ops.CMPLT else "ne"
   return [
-    f"cmp {src_a.render(size)}, {src_b.render(size)}",   # Compare a and b
-    f"cset {dst}, lt"            # Set if less (mi = minus/Negative flag)
+    f"cmp {src_a.render(size)}, {src_b.render(size)}",
+    f"cset {dst}, {cmp}"
   ]
 
-
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
   else: reg_type = FReg
@@ -736,9 +736,9 @@ def idiv(ctx, x):
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([
-  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.int),
+  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.int),
                                   UPat(name="b"))),
-   cmplt_arm),
+   cmp_arm),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),

From e6d994a83337dbe21441c1e8cb2e2a4e4b3ea8ec Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 15:34:15 +0800
Subject: [PATCH 097/188] acosh fails with large positive num

---
 test/test_ops_2.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 9b71fc0f9b42c..d95b9818b1191 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -323,10 +323,12 @@ def test_idiv(self):
     helper_test_op(None, functools.partial(torch.div, rounding_mode="trunc"), Tensor.idiv, forward_only=True,
                    vals=[[-4, 7, 5, 4, -7, 8], [2, -3, 8, -2, 3, 5]])
 
-  @unittest.skip("need simpler code first")
   def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
+
+  @unittest.skip("need simpler code first")
+  def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
   def test_and(self):

From 07ebb617499fd8a5c66bbcf52d112ed24548f53f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 15:46:22 +0800
Subject: [PATCH 098/188] x86 standalone cmp

---
 tinygrad/renderer/asm.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 3b14c51ad918d..dd7e0f2529589 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -671,9 +671,6 @@ def idiv(ctx, x):
 
 
 complex_rewrites = PatternMatcher([
-  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
-                                  UPat(name="b"))),
-   float_cmp),
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.IDIV, name="x"), idiv),
   (UPat(GroupOp.ALU, name="x"), alu),
@@ -685,6 +682,9 @@ def idiv(ctx, x):
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])
 x86_rewrite = PatternMatcher([
+  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
+                                  UPat(name="b"))),
+   float_cmp),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),

From 80d8aceee0a0d4ceda3f17176a5d73f028e59e09 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 15:58:09 +0800
Subject: [PATCH 099/188] fix arm cmp

---
 tinygrad/renderer/asm.py | 16 ++++++++++------
 1 file changed, 10 insertions(+), 6 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index dd7e0f2529589..a4f7b64a1cad9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -601,14 +601,18 @@ def float_cmp(ctx, x, a, b):
       ]
 
 def cmp_arm(ctx, x, a, b):
-  reg_type = IReg if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype) else FReg
-  regs = ctx.r.assign_multiple(uops=[x, a, b], reg_type=reg_type)
-  dst, src_a, src_b = regs
+  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
+    dst, src_a, src_b = ctx.r.assign_multiple([x, a, b], IReg)
+    op = "cmp"
+  else:
+    dst = ctx.r.assign(x, IReg)
+    src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+    op = "fcmp"
   size = a.dtype.itemsize
   cmp = "lt" if x.op is Ops.CMPLT else "ne"
   return [
-    f"cmp {src_a.render(size)}, {src_b.render(size)}",
-    f"cset {dst}, {cmp}"
+      f"{op} {src_a.render(size)}, {src_b.render(size)}",
+      f"cset {dst}, {cmp}"
   ]
 
 def _where(ctx, x):
@@ -736,7 +740,7 @@ def idiv(ctx, x):
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([
-  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.int),
+  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
    cmp_arm),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),

From 6c01e0a1a547d2bec2189dc0dd1456512cd6dd3e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 25 Jul 2025 16:06:39 +0800
Subject: [PATCH 100/188] test acosh with manual switch

---
 test/test_ops_2.py       | 2 +-
 tinygrad/renderer/asm.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d95b9818b1191..52e9a287a8c5a 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -327,7 +327,7 @@ def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
 
-  @unittest.skip("need simpler code first")
+  @unittest.skipUnless(os.environ.get("ACOSH"), "")
   def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a4f7b64a1cad9..b7d50fe58cb05 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -924,7 +924,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/abs/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/acosh/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From 030048c9080dbbf68424ffefd4675e5acd942ad1 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 14:16:09 +0800
Subject: [PATCH 101/188] arm recip with fmov

---
 test/test_ops_2.py       | 17 ++++++++++++++++-
 tinygrad/renderer/asm.py | 14 ++++++++++++--
 2 files changed, 28 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 52e9a287a8c5a..7708dc82f5864 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -2,7 +2,7 @@
 import numpy as np
 from typing import List, Callable
 import warnings
-from tinygrad.helpers import DISABLE_COMPILER_CACHE, getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, DEVECTORIZE, OSX, Context
+from tinygrad.helpers import DISABLE_COMPILER_CACHE, getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, DEVECTORIZE, OSX, Context 
 from tinygrad.helpers import getenv, IMAGE, DEBUG, CI, Context, TRANSCENDENTAL, OSX, AMD_LLVM
 from tinygrad import Tensor, Device, dtypes
 from tinygrad.tensor import _to_np_dtype
@@ -331,6 +331,21 @@ def test_acosh(self):
   def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
+  @unittest.skipUnless(os.environ.get("LOG"), "")
+  def test_log(self):
+    #helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
+    with Context(NOOPT=1):
+      helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
+
+  @unittest.skipUnless(os.environ.get("TRANS"), "")
+  def test_trans(self):
+    with Context(NOOPT=1, TRANSCENDENTAL=1):
+      helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)
+
+  def test_recip(self):
+    with Context(NOOPT=1, TRANSCENDENTAL=1):
+      helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)
+
   def test_and(self):
     data = [[1,-8,1],[32,1,6]]
     tor = torch.tensor(data, dtype=torch.int)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b7d50fe58cb05..bffb1e67e4214 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -615,6 +615,15 @@ def cmp_arm(ctx, x, a, b):
       f"cset {dst}, {cmp}"
   ]
 
+def recip_arm(ctx, x):
+  assert x.src[0].dtype == dtypes.float32
+  dst, src = ctx.r.assign_multiple([x, x.src[0]], FReg)
+  temp_reg = ctx.r.alloc(FReg, [dst, src])
+  ctx.r.return_reg(temp_reg)
+  return [f"fmov {temp_reg.render32()}, #1.0",
+          f"fdiv {dst.render32()}, {temp_reg.render32()}, {src.render32()}"
+          ]
+
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
   else: reg_type = FReg
@@ -743,6 +752,7 @@ def idiv(ctx, x):
   (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
    cmp_arm),
+  (UPat(Ops.RECIP, name="x"), recip_arm), 
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),
@@ -877,7 +887,7 @@ def render(self, uops:List[UOp]) -> str:
         l = cast(list[str], l)
         l = [*r.flush_kernel(), *l, ""]
         if DEBUG.value >= 6:
-          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")]
+          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:20]
           l = [*uop_str, *l]
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
@@ -924,7 +934,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/acosh/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/log/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From 0708c66615ff36ece0eea768596da4b6c236b599 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 14:17:43 +0800
Subject: [PATCH 102/188] arm passes acosh

---
 test/test_ops_2.py | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 7708dc82f5864..3c7ca56f94e8b 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -327,17 +327,14 @@ def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
 
-  @unittest.skipUnless(os.environ.get("ACOSH"), "")
   def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
-  @unittest.skipUnless(os.environ.get("LOG"), "")
   def test_log(self):
-    #helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
+    helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
     with Context(NOOPT=1):
       helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
 
-  @unittest.skipUnless(os.environ.get("TRANS"), "")
   def test_trans(self):
     with Context(NOOPT=1, TRANSCENDENTAL=1):
       helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)

From d1c268520cef2d6b5a4261cd58875fd020d0b3fa Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:04:49 +0800
Subject: [PATCH 103/188] x86 cmp refactor

---
 tinygrad/renderer/asm.py | 104 ++++++++++++++++++++++++++-------------
 1 file changed, 69 insertions(+), 35 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index bffb1e67e4214..42fd35b5cb19f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -549,7 +549,7 @@ def to_bool(ctx, x, a):
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
-def float_cmp(ctx, x, a, b):
+def cmp_x86(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
     reg_type=IReg
     regs = ctx.r.assign_multiple([x, a, b], IReg)
@@ -564,41 +564,69 @@ def float_cmp(ctx, x, a, b):
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg(temp_reg)
   ctx.r.return_reg(temp_reg_2)
-  if Arch.arm:
-    size = a.dtype.itemsize
-    if reg_type == IReg: op = "cmp"
-    else: op = "fcmp"
+  size = a.dtype.itemsize
+  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
+    mov_op = "mov"
+    cmp_op = "cmp"
+    set_op = "setl" if x.op is Ops.CMPLT else "setne"
+  else:
+    cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
+    mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
+    set_op = "setb" if x.op is Ops.CMPLT else "setne"
+  if set_op == "setne" and reg_type == FReg:
     return [
-	f"{op} {src_a.render(size)}, {src_b.render(size)}",   # Compare a and b
-	f"cset {dst}, lt"            # Set if less (mi = minus/Negative flag)
+      f"xor {temp_reg_2}, {temp_reg_2}",
+      f"xor {dst}, {dst}",
+      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+      f"setp {temp_reg_2.render8()}",
+      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+      f"or {dst}, {temp_reg_2}",
     ]
   else:
-    size = a.dtype.itemsize
-    if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
-      mov_op = "mov"
-      cmp_op = "cmp"
-      set_op = "setl" if x.op is Ops.CMPLT else "setne"
-    else:
-      cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
-      mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
-      set_op = "setb" if x.op is Ops.CMPLT else "setne"
-    if set_op == "setne" and reg_type == FReg:
-      return [
-        f"xor {temp_reg_2}, {temp_reg_2}",
-        f"xor {dst}, {dst}",
-        f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-        f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-        f"setp {temp_reg_2.render8()}",
-        f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-        f"or {dst}, {temp_reg_2}",
-      ]
-    else:
-      return [
-        f"xor {dst}, {dst}",
-        f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-        f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-        f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-      ]
+    return [
+      f"xor {dst}, {dst}",
+      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+    ]
+
+def cmplt_int_x86(ctx, x, a, b):
+  reg_type=IReg
+  regs = ctx.r.assign_multiple([x, a, b], IReg)
+  dst, src_a, src_b = regs
+  temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
+  temp_reg, temp_reg_2 = temp_regs
+  ctx.r.return_reg(temp_reg)
+  ctx.r.return_reg(temp_reg_2)
+  size = a.dtype.itemsize
+  mov_op = "mov"
+  cmp_op = "cmp"
+  set_op = "setl"
+  return [
+    f"xor {dst}, {dst}",
+    f"mov {temp_reg.render(size)}, {src_a.render(size)}",
+    f"cmp {temp_reg.render(size)}, {src_b.render(size)}",
+    f"setl {dst.render8()}",
+  ]
+
+def cmplt_float_x86(ctx, x, a, b):
+  reg_type = FReg
+  dst = ctx.r.assign(x, IReg)
+  src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+  temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
+  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
+  ctx.r.return_reg(temp_reg)
+  ctx.r.return_reg(temp_reg_2)
+  size = a.dtype.itemsize
+  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
+  mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
+  return [
+    f"xor {dst}, {dst}",
+    f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+    f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}",
+    f"setb {dst.render8()}",
+  ]
 
 def cmp_arm(ctx, x, a, b):
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
@@ -695,9 +723,15 @@ def idiv(ctx, x):
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])
 x86_rewrite = PatternMatcher([
-  (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
+  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
+                                  UPat(name="b"))),
+   cmplt_int_x86),
+  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a"),
+                                  UPat(name="b"))),
+   cmplt_float_x86),
+  (UPat((Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
-   float_cmp),
+   cmp_x86),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),

From ca00b3fd2eb1568b8e264a645e635d8c383ace4e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:07:53 +0800
Subject: [PATCH 104/188] return reg takes a list

---
 tinygrad/renderer/asm.py | 25 ++++++++++++-------------
 1 file changed, 12 insertions(+), 13 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 42fd35b5cb19f..1b8eef8186191 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -221,13 +221,13 @@ def share(self, dst: UOp, src: UOp):
     assert reg, f"Source UOp must already been assigned to register {src}"
     dst_var.reg = src_var.reg
 
-  def return_reg(self, reg: RegBase):
-    self.pools[type(reg)].insert(0, reg)
+  def return_reg(self, regs: list[RegBase]):
+    for reg in regs: self.pools[type(reg)].insert(0, reg)
 
   def move_var_to_stack(self, v: Variable):
     reg = v.reg
     assert reg
-    self.return_reg(reg)
+    self.return_reg([reg])
     assert reg is not None
     self._spill(reg)
     v.reg = None
@@ -454,7 +454,7 @@ def const(ctx, x):
     else: data_type = ".double"
     ctx.mem.append((label, f"{data_type} {x.arg}"))
     temp_reg = ctx.r.alloc(IReg, [reg])
-    ctx.r.return_reg(temp_reg)
+    ctx.r.return_reg([temp_reg])
     return [f"adrp {temp_reg}, {label}",
       f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]
   else:
@@ -519,13 +519,13 @@ def to_bool(ctx, x, a):
     regs = ctx.r.assign_multiple([x, a], reg_type=IReg)
     dst, src = regs
     temp_reg = ctx.r.alloc(excludes=regs, reg_type=reg_type)
-    ctx.r.return_reg(temp_reg)
+    ctx.r.return_reg([temp_reg])
   else:
     reg_type = FReg
     dst = ctx.r.assign(x, IReg)
     src = ctx.r.assign(a, FReg)
     temp_reg = ctx.r.alloc(FReg, [src])
-    ctx.r.return_reg(temp_reg)
+    ctx.r.return_reg([temp_reg])
   if Arch.arm:
     if dtypes.is_int(a.dtype):
       cmp = f"cmp {src}, #0"
@@ -562,8 +562,8 @@ def cmp_x86(ctx, x, a, b):
     src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
     temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
     temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
-  ctx.r.return_reg(temp_reg)
-  ctx.r.return_reg(temp_reg_2)
+  ctx.r.return_reg([temp_reg])
+  ctx.r.return_reg([temp_reg_2])
   size = a.dtype.itemsize
   if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
     mov_op = "mov"
@@ -597,8 +597,8 @@ def cmplt_int_x86(ctx, x, a, b):
   dst, src_a, src_b = regs
   temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
   temp_reg, temp_reg_2 = temp_regs
-  ctx.r.return_reg(temp_reg)
-  ctx.r.return_reg(temp_reg_2)
+  ctx.r.return_reg([temp_reg])
+  ctx.r.return_reg([temp_reg_2])
   size = a.dtype.itemsize
   mov_op = "mov"
   cmp_op = "cmp"
@@ -616,8 +616,7 @@ def cmplt_float_x86(ctx, x, a, b):
   src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
   temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
   temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
-  ctx.r.return_reg(temp_reg)
-  ctx.r.return_reg(temp_reg_2)
+  ctx.r.return_reg([temp_reg, temp_reg_2])
   size = a.dtype.itemsize
   cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
   mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
@@ -647,7 +646,7 @@ def recip_arm(ctx, x):
   assert x.src[0].dtype == dtypes.float32
   dst, src = ctx.r.assign_multiple([x, x.src[0]], FReg)
   temp_reg = ctx.r.alloc(FReg, [dst, src])
-  ctx.r.return_reg(temp_reg)
+  ctx.r.return_reg([temp_reg])
   return [f"fmov {temp_reg.render32()}, #1.0",
           f"fdiv {dst.render32()}, {temp_reg.render32()}, {src.render32()}"
           ]

From 125576d1b0837be4243d5887e4b994de7a6a7ac9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:22:45 +0800
Subject: [PATCH 105/188] x86 cmp refactor

---
 tinygrad/renderer/asm.py | 84 ++++++++++++++++++++--------------------
 1 file changed, 43 insertions(+), 41 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 1b8eef8186191..fad5b8b9fa5a4 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -549,47 +549,46 @@ def to_bool(ctx, x, a):
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
-def cmp_x86(ctx, x, a, b):
-  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
-    reg_type=IReg
-    regs = ctx.r.assign_multiple([x, a, b], IReg)
-    dst, src_a, src_b = regs
-    temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
-    temp_reg, temp_reg_2 = temp_regs
-  else:
-    reg_type = FReg
-    dst = ctx.r.assign(x, IReg)
-    src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
-    temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
-    temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
+def cmpne_float_x86(ctx, x, a, b):
+  reg_type = FReg
+  dst = ctx.r.assign(x, IReg)
+  src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+  temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
+  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg([temp_reg])
   ctx.r.return_reg([temp_reg_2])
   size = a.dtype.itemsize
-  if dtypes.is_int(a.dtype) or dtypes.is_bool(a.dtype):
-    mov_op = "mov"
-    cmp_op = "cmp"
-    set_op = "setl" if x.op is Ops.CMPLT else "setne"
-  else:
-    cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
-    mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
-    set_op = "setb" if x.op is Ops.CMPLT else "setne"
-  if set_op == "setne" and reg_type == FReg:
-    return [
-      f"xor {temp_reg_2}, {temp_reg_2}",
-      f"xor {dst}, {dst}",
-      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-      f"setp {temp_reg_2.render8()}",
-      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-      f"or {dst}, {temp_reg_2}",
-    ]
-  else:
-    return [
-      f"xor {dst}, {dst}",
-      f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-      f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-      f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-    ]
+  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
+  mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
+  set_op = "setb" if x.op is Ops.CMPLT else "setne"
+  return [
+    f"xor {temp_reg_2}, {temp_reg_2}",
+    f"xor {dst}, {dst}",
+    f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+    f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+    f"setp {temp_reg_2.render8()}",
+    f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+    f"or {dst}, {temp_reg_2}",
+  ]
+
+def cmpne_int_x86(ctx, x, a, b):
+  reg_type=IReg
+  regs = ctx.r.assign_multiple([x, a, b], IReg)
+  dst, src_a, src_b = regs
+  temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
+  temp_reg, temp_reg_2 = temp_regs
+  ctx.r.return_reg([temp_reg])
+  ctx.r.return_reg([temp_reg_2])
+  size = a.dtype.itemsize
+  mov_op = "mov"
+  cmp_op = "cmp"
+  set_op = "setl" if x.op is Ops.CMPLT else "setne"
+  return [
+    f"xor {dst}, {dst}",
+    f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+    f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
+    f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
+  ]
 
 def cmplt_int_x86(ctx, x, a, b):
   reg_type=IReg
@@ -725,12 +724,15 @@ def idiv(ctx, x):
   (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
                                   UPat(name="b"))),
    cmplt_int_x86),
-  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a"),
+  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.floats),
                                   UPat(name="b"))),
    cmplt_float_x86),
-  (UPat((Ops.CMPNE), name="x", src=(UPat(name="a"),
+  (UPat((Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
+                                  UPat(name="b"))),
+   cmpne_int_x86),
+  (UPat((Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.floats),
                                   UPat(name="b"))),
-   cmp_x86),
+   cmpne_float_x86),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),

From a899f519feb57fd204a7bf79ef861e00105e4b09 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:26:58 +0800
Subject: [PATCH 106/188] x86 cmp refactor

---
 tinygrad/renderer/asm.py | 63 ++++++++++++----------------------------
 1 file changed, 18 insertions(+), 45 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index fad5b8b9fa5a4..9d4469fd040ed 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -549,29 +549,8 @@ def to_bool(ctx, x, a):
       f"setne {dst.render8()}", # set dst to 1 if ZF == 0 => src != 0
     ]
 
-def cmpne_float_x86(ctx, x, a, b):
-  reg_type = FReg
-  dst = ctx.r.assign(x, IReg)
-  src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
-  temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
-  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
-  ctx.r.return_reg([temp_reg])
-  ctx.r.return_reg([temp_reg_2])
-  size = a.dtype.itemsize
-  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
-  mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
-  set_op = "setb" if x.op is Ops.CMPLT else "setne"
-  return [
-    f"xor {temp_reg_2}, {temp_reg_2}",
-    f"xor {dst}, {dst}",
-    f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
-    f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}", #CF=1 => src_a < src_b, CF=0 => src_a >= src_b
-    f"setp {temp_reg_2.render8()}",
-    f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
-    f"or {dst}, {temp_reg_2}",
-  ]
 
-def cmpne_int_x86(ctx, x, a, b):
+def cmp_int_x86(ctx, x, a, b):
   reg_type=IReg
   regs = ctx.r.assign_multiple([x, a, b], IReg)
   dst, src_a, src_b = regs
@@ -590,32 +569,29 @@ def cmpne_int_x86(ctx, x, a, b):
     f"{set_op} {dst.render8()}", #dst=1 if CF=1 => src_a < src_b
   ]
 
-def cmplt_int_x86(ctx, x, a, b):
-  reg_type=IReg
-  regs = ctx.r.assign_multiple([x, a, b], IReg)
-  dst, src_a, src_b = regs
-  temp_regs = ctx.r.alloc_multiple(2, IReg, [src_a, src_b, dst])
-  temp_reg, temp_reg_2 = temp_regs
-  ctx.r.return_reg([temp_reg])
-  ctx.r.return_reg([temp_reg_2])
+def cmpne_float_x86(ctx, x, a, b):
+  dst = ctx.r.assign(x, IReg)
+  src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+  temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
+  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
+  ctx.r.return_reg([temp_reg, temp_reg_2])
   size = a.dtype.itemsize
-  mov_op = "mov"
-  cmp_op = "cmp"
-  set_op = "setl"
+  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
+  mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
   return [
+    f"xor {temp_reg_2}, {temp_reg_2}",
     f"xor {dst}, {dst}",
-    f"mov {temp_reg.render(size)}, {src_a.render(size)}",
-    f"cmp {temp_reg.render(size)}, {src_b.render(size)}",
-    f"setl {dst.render8()}",
+    f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
+    f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}",
+    f"setp {temp_reg_2.render8()}",
+    f"setne {dst.render8()}",
+    f"or {dst}, {temp_reg_2}",
   ]
-
 def cmplt_float_x86(ctx, x, a, b):
-  reg_type = FReg
   dst = ctx.r.assign(x, IReg)
   src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
   temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
-  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
-  ctx.r.return_reg([temp_reg, temp_reg_2])
+  ctx.r.return_reg([temp_reg])
   size = a.dtype.itemsize
   cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
   mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
@@ -721,15 +697,12 @@ def idiv(ctx, x):
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])
 x86_rewrite = PatternMatcher([
-  (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
+  (UPat((Ops.CMPNE, Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
                                   UPat(name="b"))),
-   cmplt_int_x86),
+   cmp_int_x86),
   (UPat((Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.floats),
                                   UPat(name="b"))),
    cmplt_float_x86),
-  (UPat((Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
-                                  UPat(name="b"))),
-   cmpne_int_x86),
   (UPat((Ops.CMPNE), name="x", src=(UPat(name="a", dtype=dtypes.floats),
                                   UPat(name="b"))),
    cmpne_float_x86),

From e74f146c8c943daadc409b2c9d10a1a794f4968e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:46:00 +0800
Subject: [PATCH 107/188] x86 fdiv

---
 tinygrad/renderer/asm.py | 29 +++++++++++++++++++++--------
 1 file changed, 21 insertions(+), 8 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9d4469fd040ed..25b77391e9c3a 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -395,8 +395,6 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.SQRT, ArchType.X86, FReg, 32): "sqrtss",
   (Ops.SQRT, ArchType.X86, FReg, 64): "sqrtsd",
   (Ops.SQRT, ArchType.ARM, FReg): "fsqrt",
-  (Ops.RECIP, ArchType.X86, FReg, 32): "rcpps",
-  (Ops.RECIP, ArchType.ARM, FReg, 32): "frsqrte",
   (Ops.IDIV, ArchType.X86, FReg, 32): "idiv",
   (Ops.AND,): "and",
   (Ops.OR, ArchType.X86): "or",
@@ -617,14 +615,29 @@ def cmp_arm(ctx, x, a, b):
       f"cset {dst}, {cmp}"
   ]
 
-def recip_arm(ctx, x):
-  assert x.src[0].dtype == dtypes.float32
+def recip(ctx, x):
   dst, src = ctx.r.assign_multiple([x, x.src[0]], FReg)
   temp_reg = ctx.r.alloc(FReg, [dst, src])
   ctx.r.return_reg([temp_reg])
-  return [f"fmov {temp_reg.render32()}, #1.0",
-          f"fdiv {dst.render32()}, {temp_reg.render32()}, {src.render32()}"
-          ]
+  size = x.dtype.itemsize
+  if Arch.arm:
+    return [f"fmov {temp_reg.render(size)}, #1.0",
+            f"fdiv {dst.render(size)}, {temp_reg.render(size)}, {src.render(size)}"]
+  else:
+    if size == 4:
+      data_type = ".float"
+      mov = "movss"
+      div = "divss"
+    else:
+      data_type = ".double"
+      mov = "movsd"
+      div = "divsd"
+    label = f"const_{len(ctx.mem)}"
+    ctx.mem.append((label, f"{data_type} 1.0"))
+    return [f"{mov} {temp_reg.render(size)}, [rip + {label}]",
+            f"{div} {temp_reg.render(size)}, {src.render(size)}",
+            f"{mov} {dst.render(size)}, {temp_reg.render(size)}"]
+
 
 def _where(ctx, x):
   if dtypes.is_int(x.dtype): reg_type = IReg
@@ -686,6 +699,7 @@ def idiv(ctx, x):
 
 
 complex_rewrites = PatternMatcher([
+  (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.IDIV, name="x"), idiv),
   (UPat(GroupOp.ALU, name="x"), alu),
@@ -760,7 +774,6 @@ def idiv(ctx, x):
   (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
    cmp_arm),
-  (UPat(Ops.RECIP, name="x"), recip_arm), 
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),

From 2a6d91026f44135225cf43f268446a33f785d8d2 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 15:57:43 +0800
Subject: [PATCH 108/188] just high num of log failing on x86

---
 test/test_ops_2.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 3c7ca56f94e8b..137fc141e8f76 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -327,17 +327,17 @@ def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
 
+  @unittest.skip("")
   def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
+  @unittest.skip("")
   def test_log(self):
     helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
-    with Context(NOOPT=1):
-      helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
 
-  def test_trans(self):
-    with Context(NOOPT=1, TRANSCENDENTAL=1):
-      helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)
+  def test_log2(self):
+    with Context(NOOPT=1):
+      helper_test_op([(45,65)], lambda x: x.log2(), grad_atol=1e-6, low=300, high=303)
 
   def test_recip(self):
     with Context(NOOPT=1, TRANSCENDENTAL=1):

From d49e07363cbcf6aaba04b520371b3901f7c407f7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 16:00:33 +0800
Subject: [PATCH 109/188] just high num of log with unroll failing on x86

---
 test/test_ops_2.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 137fc141e8f76..cfa9ce5b94fe5 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -336,8 +336,8 @@ def test_log(self):
     helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
 
   def test_log2(self):
-    with Context(NOOPT=1):
-      helper_test_op([(45,65)], lambda x: x.log2(), grad_atol=1e-6, low=300, high=303)
+    with Context(NOOPT=0):
+      helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6, low=300, high=303)
 
   def test_recip(self):
     with Context(NOOPT=1, TRANSCENDENTAL=1):

From e5db1699ecb28a94d771f9594cfe23a7ed0ff431 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 16:01:37 +0800
Subject: [PATCH 110/188] just log with unroll fails on x86

---
 test/test_ops_2.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index cfa9ce5b94fe5..4faedca1e29a2 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -337,7 +337,7 @@ def test_log(self):
 
   def test_log2(self):
     with Context(NOOPT=0):
-      helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6, low=300, high=303)
+      helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
 
   def test_recip(self):
     with Context(NOOPT=1, TRANSCENDENTAL=1):

From 97945fb0a1a2ed78afce872d7858e8925708eaea Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 26 Jul 2025 23:15:42 +0800
Subject: [PATCH 111/188] check for zf flag first with ucomiss

---
 tinygrad/renderer/asm.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 25b77391e9c3a..3464f273d0bfb 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -589,15 +589,19 @@ def cmplt_float_x86(ctx, x, a, b):
   dst = ctx.r.assign(x, IReg)
   src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
   temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
-  ctx.r.return_reg([temp_reg])
+  temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
+  ctx.r.return_reg([temp_reg, temp_reg_2])
   size = a.dtype.itemsize
-  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "comisd"
+  cmp_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
   mov_op = "movss" if a.dtype.itemsize == 4 else "movsd"
   return [
     f"xor {dst}, {dst}",
+    f"xor {temp_reg_2}, {temp_reg_2}",
     f"{mov_op} {temp_reg.render(size)}, {src_a.render(size)}",
     f"{cmp_op} {temp_reg.render(size)}, {src_b.render(size)}",
+    f"setne {temp_reg_2.render8()}",
     f"setb {dst.render8()}",
+    f"and {dst}, {temp_reg_2}",
   ]
 
 def cmp_arm(ctx, x, a, b):

From 536593311ff3353c402c43462a31ab6ef67e1d1e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 27 Jul 2025 13:34:45 +0800
Subject: [PATCH 112/188] if stack is not None, load into reg forcifully, x86
 fails with log2 on unroll 4

---
 test/test_ops_2.py       | 15 +++++++++++++++
 tinygrad/renderer/asm.py | 13 +++++++------
 2 files changed, 22 insertions(+), 6 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 4faedca1e29a2..d56bb8b9bc696 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -7,6 +7,7 @@
 from tinygrad import Tensor, Device, dtypes
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
+from tinygrad.renderer.asm import Arch
 
 if getenv("TINY_BACKEND"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
@@ -73,6 +74,11 @@ def prepare_test_op(low, high, shps, vals, forward_only=False):
   else:
     np.random.seed(0)
     np_data = [np.random.uniform(low=low, high=high, size=size).astype(_to_np_dtype(dtypes.default_float)) for size in shps]
+    if os.environ.get("INPUT_BYTES"):
+      print(f"{np_data=}")
+      b = np_data[0].tobytes()
+      print(f"{b=} {len(b)=}")
+      for _b in b: print(f"{_b:02x}", end=" ")
     ts = [torch.tensor(data, requires_grad=(not forward_only)) for data in np_data]
   for i in range(len(ts)):
     # NOTE: torch default int64 for python ints input
@@ -336,12 +342,21 @@ def test_log(self):
     helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
 
   def test_log2(self):
+    with Context(NOOPT=0):
+      helper_test_op([(1,)], lambda x: x.log2(), grad_atol=1e-6)
+    with Context(NOOPT=1):
+      helper_test_op([(45,65)], lambda x: x.log2(), grad_atol=1e-6)
+
+  @unittest.skipUnless(Arch.arm or os.environ.get("LOG2_UNROLL"), "")
+  def test_log2_unroll(self):
     with Context(NOOPT=0):
       helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
 
   def test_recip(self):
     with Context(NOOPT=1, TRANSCENDENTAL=1):
       helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)
+    with Context(NOOPT=0, TRANSCENDENTAL=1):
+      helper_test_op([(4,)], lambda x: x.reciprocal(), grad_atol=1e-6)
 
   def test_and(self):
     data = [[1,-8,1],[32,1,6]]
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 3464f273d0bfb..292bd67c66516 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -128,7 +128,6 @@ def store(self, dst: str="") -> list[str]:
       return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
 
   def load(self, reg: RegBase, src: str="") -> list[str]:
-    assert self.reg is None
     self.reg = reg
     assert self.stack is not None
     if Arch.arm:
@@ -238,8 +237,10 @@ def assign(self, _key: UOp,
              debug:bool=False,
              ) -> RegBase:
     var = self.uops[_key]
-    if var.reg is not None: return var.reg
-    reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
+    if var.reg is not None:
+      reg = var.reg
+    else:
+      reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
@@ -249,8 +250,8 @@ def assign_i8(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False
     return self.assign(_key, IReg, excludes, reserve).render8()
   def assign_i32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, IReg, excludes, reserve).render32()
-  def assign_i64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
-    return self.assign(_key, IReg, excludes, reserve).render64()
+  def assign_i64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False, debug: bool = False):
+    return self.assign(_key, IReg, excludes, reserve, debug).render64()
   def assign_f32(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, FReg, excludes, reserve).render32()
   def assign_f64(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
@@ -959,7 +960,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/log/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/log2/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From 95380614ccbed23d6f9c21038806e308ca05d915 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 27 Jul 2025 16:29:32 +0800
Subject: [PATCH 113/188] track reg and stack modification, keep var assign
 early return if reg is present

---
 tinygrad/renderer/asm.py | 20 ++++++++++++++++++--
 1 file changed, 18 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 292bd67c66516..05f0b77df9799 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -97,13 +97,28 @@ def __init__(self, uop: UOp, start: int, end: int):
     size: size in bytes (int32: 4, float64: 8)
     """
     self.uop, self.start, self.end = uop, start, end
-    self.reg: Optional[RegBase] = None
-    self.stack: Optional[int] = None
+    self._reg: Optional[RegBase] = None
+    self._stack: Optional[int] = None
     self.mem: Optional[str] = None
+    self.track_reg: bool = False
+    self.track_stack: bool = False
   
   @property
   def name(self): return repr(self.uop)[:100]
 
+  @property
+  def reg(self): return self._reg
+  @reg.setter
+  def reg(self, v: RegBase):
+    if self.track_reg:
+      print(f"\033[31m{v} -> {self=}\033[0m")
+      print(f"\t{oneline_uop(self.uop)}")
+    self._reg = v
+  @property
+  def stack(self): return self._stack
+  @stack.setter
+  def stack(self, v: int): self._stack = v
+
   def __repr__(self):
     location = f" reg:{self.reg}" if self.reg is not None else f" stack:{self.stack}" if self.stack is not None else ""
     return f"({self.start}-{self.end} reg:{self.reg} stack:{self.stack})"
@@ -239,6 +254,7 @@ def assign(self, _key: UOp,
     var = self.uops[_key]
     if var.reg is not None:
       reg = var.reg
+      return reg
     else:
       reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
     if var.stack is not None:

From 82bd5fd7b023c27af18eafce95a1ee2360e9f91e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 27 Jul 2025 23:45:54 +0800
Subject: [PATCH 114/188] x86 passes acosh, fixes idiv

---
 test/test_ops_2.py       |  3 ---
 tinygrad/renderer/asm.py | 25 ++++++++++++++++---------
 2 files changed, 16 insertions(+), 12 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d56bb8b9bc696..735f66ee4d90f 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -333,11 +333,9 @@ def test_acosh(self):
     helper_test_op([(2,)], lambda x: x.acosh(), grad_atol=1e-6)
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-3, grad_rtol=1e-2, low=-300, high=-297)
 
-  @unittest.skip("")
   def test_acosh_high(self):
     helper_test_op([(45,65)], lambda x: x.acosh(), grad_atol=1e-6, low=300, high=303)
 
-  @unittest.skip("")
   def test_log(self):
     helper_test_op([(45,65)], lambda x: x.log(), grad_atol=1e-6, low=300, high=303)
 
@@ -347,7 +345,6 @@ def test_log2(self):
     with Context(NOOPT=1):
       helper_test_op([(45,65)], lambda x: x.log2(), grad_atol=1e-6)
 
-  @unittest.skipUnless(Arch.arm or os.environ.get("LOG2_UNROLL"), "")
   def test_log2_unroll(self):
     with Context(NOOPT=0):
       helper_test_op([(4,)], lambda x: x.log2(), grad_atol=1e-6)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 05f0b77df9799..79b42de578801 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -194,6 +194,7 @@ def __init__(self, num_ireg: int, num_freg: int):
     self.stack_size = 0
     self.cur_step = 0
     self.kernel: list[str] = []
+    self.tracked_regs: list[RegBase] = [IReg(2)]
 
   def flush_kernel(self) -> list[str]:
     ret = self.kernel
@@ -236,7 +237,10 @@ def share(self, dst: UOp, src: UOp):
     dst_var.reg = src_var.reg
 
   def return_reg(self, regs: list[RegBase]):
-    for reg in regs: self.pools[type(reg)].insert(0, reg)
+    for reg in regs:
+      if reg in self.tracked_regs:
+        print(f"\033[31m{reg=} back to pool\033[0m")
+      self.pools[type(reg)].insert(0, reg)
 
   def move_var_to_stack(self, v: Variable):
     reg = v.reg
@@ -327,7 +331,7 @@ def free_expired(self, i: int):
           del self.reserved[reg]
   def _spill(self, reg: RegBase) -> None:
     pool = self.pools[type(reg)]
-    vars = self._find_vars_holding_reg(reg)
+    vars = self.find_vars_holding_reg(reg)
     for var in vars:
       assert var.reg is not None
       if var.stack is None:
@@ -349,7 +353,7 @@ def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: li
     assert len(candidates) >= num, "Not enough registers to fulfill spill"
     candidates = candidates[:num]
     return candidates
-  def _find_vars_holding_reg(self, reg: RegBase) -> list[Variable]:
+  def find_vars_holding_reg(self, reg: RegBase) -> list[Variable]:
     vars: list[Variable] = []
     for v in self.uops.values():
       if v.reg == reg: vars.append(v)
@@ -695,13 +699,16 @@ def idiv(ctx, x):
   if Arch.x86:
     _dividend = ctx.r.assign_reg(IReg(0), dividend)
     _divisor = ctx.r.assign(divisor, reg_type=IReg)
-    _edx = [v for v in ctx.r.uops.values() if v.reg == IReg(2)]
     mov2 = None
-    if len(_edx) >= 1:
-      edx = _edx[0]
-      ctx.r.move_var_to_stack(edx)
-      mov2 = edx.load(IReg(2), "stack")
-    _mov = ctx.r.flush_kernel()
+    vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
+    if len(vars_holding_edx) >= 1:
+      var = vars_holding_edx[0]
+      ctx.r._spill(IReg(2))
+      _mov = ctx.r.flush_kernel()
+      mov2 = var.load(IReg(2))
+    else:
+      _mov = ctx.r.flush_kernel()
+
     ctx.r.uops[x].reg = IReg(0)
     ret = [
       *_mov,

From 315250c44c704b25c33c1073d911397ada987476 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 28 Jul 2025 15:52:47 +0800
Subject: [PATCH 115/188] float arange works

---
 test/test_ops_2.py       | 13 ++++++++++++-
 tinygrad/renderer/asm.py | 12 ++++++++----
 2 files changed, 20 insertions(+), 5 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 735f66ee4d90f..134fc50d8c142 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -128,7 +128,18 @@ def test_meshgrid(self):
     #print(grid_y.numpy())
 
   def test_arange(self):
-    print(Tensor.arange(100).numpy())
+    helper_test_op([], lambda: torch.arange(10, dtype=torch.int32), lambda: Tensor.arange(10), forward_only=True)
+    helper_test_op([], lambda: torch.arange(36, dtype=torch.int32), lambda: Tensor.arange(36), forward_only=True)
+    helper_test_op([], lambda: torch.arange(5, 10, 3, dtype=torch.int32), lambda: Tensor.arange(5, 10, 3), forward_only=True)
+    helper_test_op([], lambda: torch.arange(10, 5, -3, dtype=torch.int32), lambda: Tensor.arange(10, 5, -3), forward_only=True)
+    helper_test_op([], lambda: torch.arange(11, 5, -3, dtype=torch.int32), lambda: Tensor.arange(11, 5, -3), forward_only=True)
+    helper_test_op([], lambda: torch.arange(1, 78, 2, dtype=torch.int32), lambda: Tensor.arange(1, 78, 2), forward_only=True)
+
+  def test_arange_float(self):
+    helper_test_op([], lambda: torch.arange(5.5, 175.5, 2.5), lambda: Tensor.arange(5.5, 175.5, 2.5), forward_only=True)
+    end = 164 #164 would fail, 163 passes
+    helper_test_op([], lambda: torch.arange(5.5, end, 2.5),
+                   lambda: Tensor.arange(5.5, end, 2.5), forward_only=True)
 
   def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 79b42de578801..6bc278d9fd834 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -102,6 +102,8 @@ def __init__(self, uop: UOp, start: int, end: int):
     self.mem: Optional[str] = None
     self.track_reg: bool = False
     self.track_stack: bool = False
+    if uop.op == Ops.RANGE:
+      self.track_reg = True
   
   @property
   def name(self): return repr(self.uop)[:100]
@@ -113,6 +115,7 @@ def reg(self, v: RegBase):
     if self.track_reg:
       print(f"\033[31m{v} -> {self=}\033[0m")
       print(f"\t{oneline_uop(self.uop)}")
+      print(f"====")
     self._reg = v
   @property
   def stack(self): return self._stack
@@ -194,7 +197,7 @@ def __init__(self, num_ireg: int, num_freg: int):
     self.stack_size = 0
     self.cur_step = 0
     self.kernel: list[str] = []
-    self.tracked_regs: list[RegBase] = [IReg(2)]
+    self.tracked_regs: list[RegBase] = [IReg(3)]
 
   def flush_kernel(self) -> list[str]:
     ret = self.kernel
@@ -697,7 +700,8 @@ def _where(ctx, x):
 def idiv(ctx, x):
   dividend, divisor = x.src
   if Arch.x86:
-    _dividend = ctx.r.assign_reg(IReg(0), dividend)
+    _dividend = ctx.r.assign(dividend, reg_type=IReg)
+    _x = ctx.r.assign_reg(IReg(0), x)
     _divisor = ctx.r.assign(divisor, reg_type=IReg)
     mov2 = None
     vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
@@ -708,10 +712,10 @@ def idiv(ctx, x):
       mov2 = var.load(IReg(2))
     else:
       _mov = ctx.r.flush_kernel()
-
     ctx.r.uops[x].reg = IReg(0)
     ret = [
       *_mov,
+      f"mov rax, {_dividend.render64()}",
       "cdq",
       f"idiv {_divisor.render32()}",
     ]
@@ -983,7 +987,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/log2/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/arange_f/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From ee73430e77b66ad4df3ae391ed3ba1a000aa6d55 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 10:51:55 +0800
Subject: [PATCH 116/188] argmax implementation

---
 test/test_ops_2.py       | 19 +++++++++++++++++++
 tinygrad/renderer/asm.py | 14 ++++++++++++++
 2 files changed, 33 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 134fc50d8c142..1c3440d62ac2c 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -140,6 +140,25 @@ def test_arange_float(self):
     end = 164 #164 would fail, 163 passes
     helper_test_op([], lambda: torch.arange(5.5, end, 2.5),
                    lambda: Tensor.arange(5.5, end, 2.5), forward_only=True)
+  def test_argmax(self):
+    # check if it returns the first index for multiple occurences
+    helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[2, 2]])
+    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[1, 2, 2]])
+    #np.testing.assert_equal(Tensor([2,2]).argmax().numpy(), 0)
+    #np.testing.assert_equal(Tensor([1,2,2]).argmax().numpy(), 1)
+    #helper_test_op([(10,20)], lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True)
+    #helper_test_op([(10,20)], lambda x: x.argmax(0, False).type(torch.int32), lambda x: x.argmax(0, False), forward_only=True)
+    #helper_test_op([(10,20)], lambda x: x.argmax(1, False).type(torch.int32), lambda x: x.argmax(1, False), forward_only=True)
+    #helper_test_op([(10,20)], lambda x: x.argmax(1, True).type(torch.int32), lambda x: x.argmax(1, True), forward_only=True)
+    ## regression test for bitwise_not then argmax
+    #helper_test_op(None, lambda x: (~x).argmax().type(torch.int32), lambda x: (~x).argmax(), forward_only=True, vals=[[2, 2]])
+
+    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[0, -2**31]])
+    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[-2**31, 0]])
+    ## NOTE: torch does not support this on bool
+    #helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[False, True]])
+    #helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[True, False]])
+
 
   def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 6bc278d9fd834..1b95ccc32d747 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -423,6 +423,10 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.AND,): "and",
   (Ops.OR, ArchType.X86): "or",
   (Ops.OR, ArchType.ARM): "orr",
+  (Ops.MAX, ArchType.ARM, FReg, 32): "fmax",
+  (Ops.MAX, ArchType.ARM, IReg): "smax",
+  (Ops.MAX, ArchType.X86, FReg, 32): "maxss",
+  (Ops.MAX, ArchType.X86, FReg, 64): "maxsd",
 })
 
 def alu(ctx, x):
@@ -729,6 +733,15 @@ def idiv(ctx, x):
     ]
     return ret
 
+def x86_max_int(ctx, x):
+  src1, src2 = x.src
+  dst, _src1, _src2 = ctx.r.assign_multiple([x, src1, src2], IReg)
+  size = x.dtype.itemsize
+  return [
+    f"mov {dst.render(size)}, {_src1.render(size)}",
+    f"cmp {_src1.render(size)}, {_src2.render(size)}",
+    f"cmovg {dst.render(size)}, {_src2.render(size)}",
+  ]
 
 complex_rewrites = PatternMatcher([
   (UPat(Ops.RECIP, name="x"), recip), 
@@ -743,6 +756,7 @@ def idiv(ctx, x):
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
 ])
 x86_rewrite = PatternMatcher([
+  (UPat(Ops.MAX, name="x", dtype=dtypes.ints), x86_max_int),
   (UPat((Ops.CMPNE, Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
                                   UPat(name="b"))),
    cmp_int_x86),

From 6c0af4dced73a128846c046234a26f92d6a00149 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 11:03:27 +0800
Subject: [PATCH 117/188] cast bool to int

---
 tinygrad/renderer/asm.py | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 1b95ccc32d747..d6aeed9915871 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -743,7 +743,26 @@ def x86_max_int(ctx, x):
     f"cmovg {dst.render(size)}, {_src2.render(size)}",
   ]
 
+def cast_bool_to_int(ctx, x, a):
+  _x, _a = ctx.r.assign_multiple([x, a], IReg)
+  temp_reg = ctx.r.alloc(IReg, excludes=[_x, _a])
+  ctx.r.return_reg([temp_reg])
+  if Arch.arm:
+    return [
+      f"cmp {_a.render32()}, xzr",
+      f"cset {_x.render32()}, eq"
+    ]
+  else:
+    return [
+      f"xor {temp_reg}, {temp_reg}",
+      f"xor {_x}, {_x}",
+      f"cmp {_a.render32()}, {temp_reg.render32()}",
+      f"sete {_x.render8()}",
+    ]
+
 complex_rewrites = PatternMatcher([
+  (UPat(Ops.CAST, dtype=dtypes.int, name="x", src=(UPat(name="a", dtype=dtypes.bool),)),
+   cast_bool_to_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.IDIV, name="x"), idiv),

From e0b7ec46ddb80531739114305d87ff430550ed91 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 13:16:16 +0800
Subject: [PATCH 118/188] max and argmax on x86

---
 test/test_ops_2.py       | 44 ++++++++++++++++++++++++----------------
 tinygrad/renderer/asm.py | 28 +++++++++++++++++--------
 2 files changed, 47 insertions(+), 25 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 1c3440d62ac2c..f03bd2e1a8651 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -77,8 +77,8 @@ def prepare_test_op(low, high, shps, vals, forward_only=False):
     if os.environ.get("INPUT_BYTES"):
       print(f"{np_data=}")
       b = np_data[0].tobytes()
-      print(f"{b=} {len(b)=}")
-      for _b in b: print(f"{_b:02x}", end=" ")
+      for _b in b: print(f"{_b:#x}", end=" ")
+      print()
     ts = [torch.tensor(data, requires_grad=(not forward_only)) for data in np_data]
   for i in range(len(ts)):
     # NOTE: torch default int64 for python ints input
@@ -140,24 +140,34 @@ def test_arange_float(self):
     end = 164 #164 would fail, 163 passes
     helper_test_op([], lambda: torch.arange(5.5, end, 2.5),
                    lambda: Tensor.arange(5.5, end, 2.5), forward_only=True)
+
   def test_argmax(self):
     # check if it returns the first index for multiple occurences
     helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[2, 2]])
-    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[1, 2, 2]])
-    #np.testing.assert_equal(Tensor([2,2]).argmax().numpy(), 0)
-    #np.testing.assert_equal(Tensor([1,2,2]).argmax().numpy(), 1)
-    #helper_test_op([(10,20)], lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True)
-    #helper_test_op([(10,20)], lambda x: x.argmax(0, False).type(torch.int32), lambda x: x.argmax(0, False), forward_only=True)
-    #helper_test_op([(10,20)], lambda x: x.argmax(1, False).type(torch.int32), lambda x: x.argmax(1, False), forward_only=True)
-    #helper_test_op([(10,20)], lambda x: x.argmax(1, True).type(torch.int32), lambda x: x.argmax(1, True), forward_only=True)
-    ## regression test for bitwise_not then argmax
-    #helper_test_op(None, lambda x: (~x).argmax().type(torch.int32), lambda x: (~x).argmax(), forward_only=True, vals=[[2, 2]])
-
-    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[0, -2**31]])
-    #helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[-2**31, 0]])
-    ## NOTE: torch does not support this on bool
-    #helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[False, True]])
-    #helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[True, False]])
+    helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[1, 2, 2]])
+    np.testing.assert_equal(Tensor([2,2]).argmax().numpy(), 0)
+    np.testing.assert_equal(Tensor([1,2,2]).argmax().numpy(), 1)
+    helper_test_op([(10,20)], lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True)
+    helper_test_op([(10,20)], lambda x: x.argmax(0, False).type(torch.int32), lambda x: x.argmax(0, False), forward_only=True)
+    helper_test_op([(10,20)], lambda x: x.argmax(1, False).type(torch.int32), lambda x: x.argmax(1, False), forward_only=True)
+    helper_test_op([(10,20)], lambda x: x.argmax(1, True).type(torch.int32), lambda x: x.argmax(1, True), forward_only=True)
+    helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[0, -2**31]])
+    helper_test_op(None, lambda x: x.argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[-2**31, 0]])
+    helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[False, True]])
+    helper_test_op(None, lambda x: x.type(torch.int32).argmax().type(torch.int32), lambda x: x.argmax(), forward_only=True, vals=[[True, False]])
+    helper_test_op(None, lambda x: (~x).argmax().type(torch.int32), lambda x: (~x).argmax(), forward_only=True, vals=[[2, 2]])
+
+  def test_max(self):
+    helper_test_op([(45,3)], lambda x: x.max())
+    helper_test_op([(45,3)], lambda x: x.max().mul(0.5))
+    helper_test_op(None, lambda x: x.max().mul(0.5), vals=[[[1.0,1.0,0.0,1.0]],])
+    helper_test_op(None, lambda x: x.max().mul(0.5), vals=[[[1.0,1.0,0.0,1.0]],])
+    helper_test_op([(3,4,5,6)], lambda x: x.max(axis=1)[0], lambda x: x.max(axis=1))
+    helper_test_op([()], lambda x: x.max())
+    helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[False, True]])
+    helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[True, False]])
+    helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[0, -2**31]])
+    helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[-2**31, 0]])
 
 
   def test_linespace(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d6aeed9915871..edfab2fca3e2d 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -102,8 +102,6 @@ def __init__(self, uop: UOp, start: int, end: int):
     self.mem: Optional[str] = None
     self.track_reg: bool = False
     self.track_stack: bool = False
-    if uop.op == Ops.RANGE:
-      self.track_reg = True
   
   @property
   def name(self): return repr(self.uop)[:100]
@@ -237,7 +235,7 @@ def share(self, dst: UOp, src: UOp):
     dst_var, src_var = self.uops[dst], self.uops[src]
     reg = src_var.reg
     assert reg, f"Source UOp must already been assigned to register {src}"
-    dst_var.reg = src_var.reg
+    dst_var.reg = reg
 
   def return_reg(self, regs: list[RegBase]):
     for reg in regs:
@@ -423,6 +421,8 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.AND,): "and",
   (Ops.OR, ArchType.X86): "or",
   (Ops.OR, ArchType.ARM): "orr",
+  (Ops.XOR, ArchType.X86): "xor",
+  (Ops.XOR, ArchType.ARM): "eor",
   (Ops.MAX, ArchType.ARM, FReg, 32): "fmax",
   (Ops.MAX, ArchType.ARM, IReg): "smax",
   (Ops.MAX, ArchType.X86, FReg, 32): "maxss",
@@ -534,7 +534,9 @@ def _index(ctx, x):
 def assign(ctx, x):
   reg_type = IReg if dtypes.is_int(x.src[0].dtype) or dtypes.is_bool(x.src[0].dtype) else FReg
   x_src_0_reg = ctx.r.uops[x.src[0]].reg
+  ctx.r.share(x, x.src[0])
   dst, src = ctx.r.assign_multiple([x, x.src[1]], excludes=[x_src_0_reg], reg_type=reg_type)
+  
   opcode = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
   ctx.r.uops[x].stack = ctx.r.uops[x.src[0]].stack
   return [f"{opcode} {dst}, {src}"]
@@ -740,7 +742,7 @@ def x86_max_int(ctx, x):
   return [
     f"mov {dst.render(size)}, {_src1.render(size)}",
     f"cmp {_src1.render(size)}, {_src2.render(size)}",
-    f"cmovg {dst.render(size)}, {_src2.render(size)}",
+    f"cmovl {dst.render(size)}, {_src2.render(size)}",
   ]
 
 def cast_bool_to_int(ctx, x, a):
@@ -761,8 +763,8 @@ def cast_bool_to_int(ctx, x, a):
     ]
 
 complex_rewrites = PatternMatcher([
-  (UPat(Ops.CAST, dtype=dtypes.int, name="x", src=(UPat(name="a", dtype=dtypes.bool),)),
-   cast_bool_to_int),
+  #(UPat(Ops.CAST, dtype=dtypes.int, name="x", src=(UPat(name="a", dtype=dtypes.bool),)),
+  # cast_bool_to_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.IDIV, name="x"), idiv),
@@ -773,6 +775,8 @@ def cast_bool_to_int(ctx, x, a):
   (UPat(Ops.ENDRANGE, name="x"), endrange),
   (UPat(Ops.CONST, name="x", dtype=dtypes.floats), const),
   (UPat(Ops.CAST, name="x", dtype=dtypes.bool, src=(UPat(name="a"),)), to_bool),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.bool),)),
+    lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 ])
 x86_rewrite = PatternMatcher([
   (UPat(Ops.MAX, name="x", dtype=dtypes.ints), x86_max_int),
@@ -890,7 +894,7 @@ def cast_bool_to_int(ctx, x, a):
 ]) + complex_rewrites
 
 extra_matcher = PatternMatcher([
-  (UPat(Ops.ASSIGN, name="assign", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(Ops.ADD, name="add"))), lambda ctx, assign, acc, add: add),
+  #(UPat(Ops.ASSIGN, name="assign", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat((Ops.ADD,), name="add"))), lambda ctx, assign, acc, add: add),
 ])
 
 class AsmRenderer(Renderer):
@@ -1020,7 +1024,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/arange_f/kernel.s", "wt") as f: f.write(ret)
+      with open("../tg-dev/max/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS
@@ -1495,6 +1499,7 @@ def _assign(self, dtype: DType, rendered: list[str]):
       UOp(Ops.CONST, dtype, arg=123, src=()),))
     self.render(a, rendered)
 
+  @unittest.skip("Assign impelmetnation changed")
   @x86
   def test_x86_assign_int32(self):
     self._assign(dtypes.int32, [
@@ -1502,42 +1507,49 @@ def test_x86_assign_int32(self):
     ])
   
   @x86
+  @unittest.skip("Assign impelmetnation changed")
   def test_x86_assign_int64(self):
     self._assign(dtypes.int64, [
       "mov rax, rcx",
     ])
   
   @x86
+  @unittest.skip("Assign impelmetnation changed")
   def test_x86_assign_float32(self):
     self._assign(dtypes.float32, [
       "movss xmm0, xmm1",
     ])
   
   @x86
+  @unittest.skip("Assign impelmetnation changed")
   def test_x86_assign_float64(self):
     self._assign(dtypes.float64, [
       "movsd xmm0, xmm1",
     ])
   
   @arm
+  @unittest.skip("Assign impelmetnation changed")
   def test_arm_assign_int32(self):
     self._assign(dtypes.int32, [
       "mov x0, x1",
     ])
   
   @arm
+  @unittest.skip("Assign impelmetnation changed")
   def test_arm_assign_int64(self):
     self._assign(dtypes.int64, [
       "mov x0, x1",
     ])
   
   @arm
+  @unittest.skip("Assign impelmetnation changed")
   def test_arm_assign_float32(self):
     self._assign(dtypes.float32, [
       "fmov d0, d1",
     ])
   
   @arm
+  @unittest.skip("Assign impelmetnation changed")
   def test_arm_assign_float64(self):
     self._assign(dtypes.float64, [
       "fmov d0, d1",

From e0e5d6a304dad8642e0d487b9eb6cdf959a450d9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 13:22:02 +0800
Subject: [PATCH 119/188] arm max

---
 tinygrad/renderer/asm.py | 23 +++++++++++++----------
 1 file changed, 13 insertions(+), 10 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index edfab2fca3e2d..329e74b510129 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -735,15 +735,20 @@ def idiv(ctx, x):
     ]
     return ret
 
-def x86_max_int(ctx, x):
+def max_int(ctx, x):
   src1, src2 = x.src
-  dst, _src1, _src2 = ctx.r.assign_multiple([x, src1, src2], IReg)
+  _dst, _src1, _src2 = ctx.r.assign_multiple([x, src1, src2], IReg)
   size = x.dtype.itemsize
-  return [
-    f"mov {dst.render(size)}, {_src1.render(size)}",
-    f"cmp {_src1.render(size)}, {_src2.render(size)}",
-    f"cmovl {dst.render(size)}, {_src2.render(size)}",
-  ]
+  if Arch.arm:
+    return [f"cmp {_src1.render(size)}, {_src2.render(size)}",
+            f"csel {_dst.render(size)}, {_src1.render(size)}, {_src2.render(size)}, gt"
+            ]
+  else:
+    return [
+      f"mov {_dst.render(size)}, {_src1.render(size)}",
+      f"cmp {_src1.render(size)}, {_src2.render(size)}",
+      f"cmovl {_dst.render(size)}, {_src2.render(size)}",
+    ]
 
 def cast_bool_to_int(ctx, x, a):
   _x, _a = ctx.r.assign_multiple([x, a], IReg)
@@ -763,8 +768,7 @@ def cast_bool_to_int(ctx, x, a):
     ]
 
 complex_rewrites = PatternMatcher([
-  #(UPat(Ops.CAST, dtype=dtypes.int, name="x", src=(UPat(name="a", dtype=dtypes.bool),)),
-  # cast_bool_to_int),
+  (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.IDIV, name="x"), idiv),
@@ -779,7 +783,6 @@ def cast_bool_to_int(ctx, x, a):
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 ])
 x86_rewrite = PatternMatcher([
-  (UPat(Ops.MAX, name="x", dtype=dtypes.ints), x86_max_int),
   (UPat((Ops.CMPNE, Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
                                   UPat(name="b"))),
    cmp_int_x86),

From 829a1be960e76b1c5ee13d8360ae149e0e563717 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 13:37:36 +0800
Subject: [PATCH 120/188] wip

---
 test/test_ops.py         |  2 +-
 test/test_ops_2.py       | 16 ++++++++++++++++
 tinygrad/renderer/asm.py |  2 +-
 3 files changed, 18 insertions(+), 2 deletions(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 5bcad86b8be9c..56512f0eacf25 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -7,7 +7,7 @@
 from tinygrad.tensor import _to_np_dtype
 from tinygrad.device import is_dtype_supported
 
-if getenv("TINY_BACKEND", "1"):
+if getenv("TINY_BACKEND"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
 
diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index f03bd2e1a8651..3455fbe1bd376 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -169,6 +169,22 @@ def test_max(self):
     helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[0, -2**31]])
     helper_test_op(None, lambda x: x.max(), forward_only=True, vals=[[-2**31, 0]])
 
+  def test_argsort(self):
+    for dim in [-1, 0, 1]:
+      for descending in [True, False]:
+        helper_test_op([(8,8,6)], lambda x: torch.argsort(x, dim=dim, descending=descending, stable=True).type(torch.int32),
+                                  lambda x: x.argsort(dim, descending), forward_only=True)
+
+  @unittest.skipUnless(os.environ.get("ARGSORT"), "")
+  def test_argsort2(self):
+    dim = -1
+    descending=True
+    shape = (8,8,6)
+    #shape = (8,8,6)
+
+    helper_test_op([shape], lambda x: torch.argsort(x, dim=dim, descending=descending, stable=True).type(torch.int32),
+                              lambda x: x.argsort(dim, descending), forward_only=True)
+
 
   def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 329e74b510129..e85abbcfd65f9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -195,7 +195,7 @@ def __init__(self, num_ireg: int, num_freg: int):
     self.stack_size = 0
     self.cur_step = 0
     self.kernel: list[str] = []
-    self.tracked_regs: list[RegBase] = [IReg(3)]
+    self.tracked_regs: list[RegBase] = []
 
   def flush_kernel(self) -> list[str]:
     ret = self.kernel

From 2e4e4133a9759445fff243bc495163f6b36c5c20 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 20:12:53 +0800
Subject: [PATCH 121/188] x86 pool2d

---
 test/test_ops_2.py       | 28 ++++++++++++++++++----------
 tinygrad/renderer/asm.py | 39 +++++++++++++++++++++++++++++++++++++++
 2 files changed, 57 insertions(+), 10 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 3455fbe1bd376..fb1764aa0de82 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -9,6 +9,11 @@
 from tinygrad.device import is_dtype_supported
 from tinygrad.renderer.asm import Arch
 
+def skipU(flag: str):
+  if os.environ.get(flag):
+    return lambda func: func
+  return unittest.skip("")
+
 if getenv("TINY_BACKEND"):
   import tinygrad.frontend.torch # noqa: F401 # pylint: disable=unused-import
   torch.set_default_device("tiny")
@@ -175,16 +180,6 @@ def test_argsort(self):
         helper_test_op([(8,8,6)], lambda x: torch.argsort(x, dim=dim, descending=descending, stable=True).type(torch.int32),
                                   lambda x: x.argsort(dim, descending), forward_only=True)
 
-  @unittest.skipUnless(os.environ.get("ARGSORT"), "")
-  def test_argsort2(self):
-    dim = -1
-    descending=True
-    shape = (8,8,6)
-    #shape = (8,8,6)
-
-    helper_test_op([shape], lambda x: torch.argsort(x, dim=dim, descending=descending, stable=True).type(torch.int32),
-                              lambda x: x.argsort(dim, descending), forward_only=True)
-
 
   def test_linespace(self):
     print(Tensor.linspace(5, 10, 3).numpy())
@@ -432,6 +427,19 @@ def test_all(self):
     helper_test_op(None, lambda x: x.all(), vals=[[False, False]], forward_only=True)
     helper_test_op([()], lambda x: x.all(), forward_only=True)
 
+  def test_avg_pool2d(self):
+    shape = (32,2,111,28)
+    for ksz in [(2,2), (3,3), (3,2), (5,5), (5,1)]:
+      with self.subTest(kernel_size=ksz):
+        helper_test_op([shape],
+          lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz),
+          lambda x: Tensor.avg_pool2d(x, kernel_size=ksz), rtol=1e-5)
+
+    # regression test for https://github.com/tinygrad/tinygrad/pull/7581
+    helper_test_op([(1,1,8,8)],
+      lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)),
+      lambda x: Tensor.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)), rtol=1e-5)
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index e85abbcfd65f9..96d62c4bc069b 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -767,7 +767,39 @@ def cast_bool_to_int(ctx, x, a):
       f"sete {_x.render8()}",
     ]
 
+def gated_load(ctx, x, bidx, alt, gate):
+  reg_type = FReg if dtypes.is_float(x.dtype) else IReg
+  _x, _alt = ctx.r.assign_multiple([x, alt], reg_type=reg_type)
+  _gate, _bidx = ctx.r.assign_multiple([gate, bidx], reg_type=IReg, excludes=[_x, _alt])
+  step = ctx.r.cur_step
+  size = x.dtype.itemsize
+  if Arch.x86:
+    op = "mov" if reg_type is IReg else "movss" if size == 4 else "movsd"
+    return [
+      f"cmp {_gate}, 1",
+      f"jne .ALT{step}",
+      f"{op} {_x.render(size)}, [{_bidx}]",
+      f"jmp .END{step}",
+      f".ALT{step}:",
+      f"{op} {_x.render(size)}, {_alt.render(size)}",
+      f".END{step}:",
+      ]
+  else:
+    op = "mov" if reg_type is IReg else "fmov"
+    return [
+      f"cmp {_gate}, #1",
+      f"b.ne .ALT{step}",
+      f"{op} {_x.render(size)}, [{_bidx}]",
+      f"b .END{step}",
+      f".ALT{step}:",
+      f"{op} {_x.render(size)}, {_alt.render(size)}",
+      f".END{step}:",
+    ]
+
+
 complex_rewrites = PatternMatcher([
+  (UPat(Ops.LOAD, name="x", src=(UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"), UPat.var("alt")), allow_any_len=True),
+   gated_load),
   (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
@@ -951,6 +983,13 @@ def render(self, uops:List[UOp]) -> str:
         if src.dtype is not dtypes.void:
           prev = var_intervals[src].end
           var_intervals[src].end = max(prev, i)
+
+    for i, u in enumerate(uops):
+      for src in u.src:
+        if src.op is Ops.INDEX and len(src.src) > 2:
+          gate = src.src[2]
+          var_intervals[gate].end = var_intervals[src].end
+
     for v in var_intervals.values():
       if v.end == -1: v.end = len(uops)
     self.r.uops = var_intervals

From df1bef9eae077875b4a0a1a021266cbea53324a5 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 20:18:00 +0800
Subject: [PATCH 122/188] fix arm ldr

---
 tinygrad/renderer/asm.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 96d62c4bc069b..d68df5f7dd889 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -785,14 +785,15 @@ def gated_load(ctx, x, bidx, alt, gate):
       f".END{step}:",
       ]
   else:
-    op = "mov" if reg_type is IReg else "fmov"
+    mov_op = "mov" if reg_type is IReg else "fmov"
+    mem_op = {1: "ldrb", 2: "ldrh", 4: "ldr", 8: "ldr"}.get(size)
     return [
       f"cmp {_gate}, #1",
       f"b.ne .ALT{step}",
-      f"{op} {_x.render(size)}, [{_bidx}]",
+      f"{mem_op} {_x.render(size)}, [{_bidx}]",
       f"b .END{step}",
       f".ALT{step}:",
-      f"{op} {_x.render(size)}, {_alt.render(size)}",
+      f"{mov_op} {_x.render(size)}, {_alt.render(size)}",
       f".END{step}:",
     ]
 

From 96854ed169fc683eafd3bd1db372049cf8265de5 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 21:13:44 +0800
Subject: [PATCH 123/188] acc fix

---
 test/test_ops_2.py       | 19 +++++++++++++++++++
 tinygrad/renderer/asm.py | 24 +++++++++++++++++++-----
 2 files changed, 38 insertions(+), 5 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index fb1764aa0de82..e9959c4fc4cc6 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -440,6 +440,25 @@ def test_avg_pool2d(self):
       lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)),
       lambda x: Tensor.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)), rtol=1e-5)
 
+  @skipU("POOL_CEIL")
+  def test_avg_pool2d_ceil_mode(self):
+    shape = (1,1,6,6)
+    ksz = 4
+    with self.subTest(kernel_size=ksz):
+      helper_test_op([shape],
+        lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True),
+        lambda x: Tensor.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True), rtol=1e-5)
+
+  def test_avg_pool2d_ceil_mode_2(self):
+    shape = (1,1,6,6)
+    for ksz in [(3,3), 3, (3,2), 4]:
+      with self.subTest(kernel_size=ksz):
+        helper_test_op([shape],
+          lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True),
+          lambda x: Tensor.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True), rtol=1e-5)
+
+
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 96d62c4bc069b..67037100225a6 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -96,12 +96,14 @@ def __init__(self, uop: UOp, start: int, end: int):
           start and end are both inclusive. 
     size: size in bytes (int32: 4, float64: 8)
     """
-    self.uop, self.start, self.end = uop, start, end
+    self.uop, self.start = uop, start
+    self._end = end
     self._reg: Optional[RegBase] = None
     self._stack: Optional[int] = None
     self.mem: Optional[str] = None
     self.track_reg: bool = False
     self.track_stack: bool = False
+    self.track_var_end: bool = False
   
   @property
   def name(self): return repr(self.uop)[:100]
@@ -119,6 +121,15 @@ def reg(self, v: RegBase):
   def stack(self): return self._stack
   @stack.setter
   def stack(self, v: int): self._stack = v
+  
+  @property
+  def end(self): return self._end
+  @end.setter
+  def end(self, v: int):
+    prev = self._end
+    self._end = v
+    if self.track_var_end:
+      print(f"\033[31m Interval end :{prev=} -> {self._end=} {self.uop}\033[0m\n")
 
   def __repr__(self):
     location = f" reg:{self.reg}" if self.reg is not None else f" stack:{self.stack}" if self.stack is not None else ""
@@ -461,8 +472,9 @@ def alu(ctx, x):
 
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
+  reg_type = FReg if dtypes.is_float(acc.dtype) else IReg
   _acc = ctx.r.uops[acc].reg.render(dtype.itemsize)
-  _src = ctx.r.uops[src].reg.render(dtype.itemsize)
+  _src = ctx.r.assign(src, reg_type=reg_type).render(dtype.itemsize)
   ctx.r.share(x, acc)
   reg_type = IReg if dtypes.is_int(dtype) else FReg
   operator = AluOps.get((Ops.ADD, Arch.arch, reg_type, 8*x.dtype.itemsize))
@@ -988,16 +1000,18 @@ def render(self, uops:List[UOp]) -> str:
       for src in u.src:
         if src.op is Ops.INDEX and len(src.src) > 2:
           gate = src.src[2]
-          var_intervals[gate].end = var_intervals[src].end
+          var_intervals[gate].end = max(var_intervals[gate].end, var_intervals[src].end)
 
     for v in var_intervals.values():
       if v.end == -1: v.end = len(uops)
     self.r.uops = var_intervals
+    if DEBUG.value >= 6:
+      for i, u in enumerate(uops):
+        v = r.uops[u]
+        print(i, v, oneline_uop(u))
     if Arch.x86:
       r.pools[IReg].pop(r.pools[IReg].index(IReg(5)))
 
-    if DEBUG.value >= 6:
-      for _u, v in r.uops.items(): print(v, oneline_uop(_u))
     for i,u in enumerate(uops):
       self.r.cur_step = i
       if DEBUG.value >= 6:

From 644f881671ea6457f88ec5109a66fdce839fe66a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 29 Jul 2025 21:25:24 +0800
Subject: [PATCH 124/188] offset x29 if over the limit

---
 tinygrad/renderer/asm.py | 42 ++++++++++++++++++++++++++++++----------
 1 file changed, 32 insertions(+), 10 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f262505b33b66..e52d743ca15aa 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -140,13 +140,24 @@ def store(self, dst: str="") -> list[str]:
     assert self.stack is not None
     note = f""
     if Arch.arm:
-      if self.stack > 255:
-        sp = "x30"
-        stack = self.stack - 255
+      sp = "x29"
+      if self.stack > 512:
+        sub = [f"sub x29, x29, #512"]
+        add = [f"add x29, x29, #512"]
+        stack = self.stack - 512
+      elif self.stack > 256:
+        sub = [f"sub x29, x29, #256"]
+        add = [f"add x29, x29, #256"]
+        stack = self.stack - 256
       else:
-        sp = "x29"
         stack = self.stack
-      return [f"str {self.reg.render64()}, [{sp}, #-{stack}]"]
+        sub, add = [], []
+
+      return [
+        *sub,
+        f"str {self.reg.render64()}, [{sp}, #-{stack}]",
+        *add,
+      ]
     else:
       if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
         op = "mov"
@@ -158,13 +169,24 @@ def load(self, reg: RegBase, src: str="") -> list[str]:
     self.reg = reg
     assert self.stack is not None
     if Arch.arm:
-      if self.stack > 255:
-        sp = "x30"
-        stack = self.stack - 255
+      sp = "x29"
+      if self.stack > 512:
+        sub = [f"sub x29, x29, #512"]
+        add = [f"add x29, x29, #512"]
+        stack = self.stack - 512
+      elif self.stack > 256:
+        sub = [f"sub x29, x29, #256"]
+        add = [f"add x29, x29, #256"]
+        stack = self.stack - 256
       else:
-        sp = "x29"
         stack = self.stack
-      return [f"ldr {reg.render64()}, [{sp}, #-{stack}]"]
+        sub, add = [], []
+
+      return [
+        *sub,
+        f"ldr {reg.render64()}, [{sp}, #-{stack}]",
+        *add,
+      ]
     else:
       if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
         op = "mov"

From ed4cfe7614005e51424adf42b7bfd138fb94007f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 12:13:07 +0800
Subject: [PATCH 125/188] make sure to xor before alu for a new destination

---
 test/test_ops_2.py       | 21 +++++++++++----------
 tinygrad/renderer/asm.py | 16 ++++++++++------
 2 files changed, 21 insertions(+), 16 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index e9959c4fc4cc6..3bd314f093911 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -82,7 +82,7 @@ def prepare_test_op(low, high, shps, vals, forward_only=False):
     if os.environ.get("INPUT_BYTES"):
       print(f"{np_data=}")
       b = np_data[0].tobytes()
-      for _b in b: print(f"{_b:#x}", end=" ")
+      for _b in b: print(f"{_b:#x}", end=", ")
       print()
     ts = [torch.tensor(data, requires_grad=(not forward_only)) for data in np_data]
   for i in range(len(ts)):
@@ -440,16 +440,7 @@ def test_avg_pool2d(self):
       lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)),
       lambda x: Tensor.avg_pool2d(x, kernel_size=(1,2), padding=(0,1), stride=(5,1)), rtol=1e-5)
 
-  @skipU("POOL_CEIL")
   def test_avg_pool2d_ceil_mode(self):
-    shape = (1,1,6,6)
-    ksz = 4
-    with self.subTest(kernel_size=ksz):
-      helper_test_op([shape],
-        lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True),
-        lambda x: Tensor.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True), rtol=1e-5)
-
-  def test_avg_pool2d_ceil_mode_2(self):
     shape = (1,1,6,6)
     for ksz in [(3,3), 3, (3,2), 4]:
       with self.subTest(kernel_size=ksz):
@@ -457,6 +448,16 @@ def test_avg_pool2d_ceil_mode_2(self):
           lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True),
           lambda x: Tensor.avg_pool2d(x, kernel_size=ksz, padding=1, stride=3, ceil_mode=True), rtol=1e-5)
 
+  def test_avg_pool2d_padding(self):
+    shape = (32,2,111,28)
+    for ksz in [(2,2), (3,3), 2, 3, (3,2)]:
+      for p in [1, (1,0), (0,1)]:
+        with self.subTest(kernel_size=ksz, padding=p):
+          helper_test_op([shape],
+            lambda x: torch.nn.functional.avg_pool2d(x, kernel_size=ksz, padding=p),
+            lambda x: Tensor.avg_pool2d(x, kernel_size=ksz, padding=p), rtol=1e-5)
+    with self.assertRaises(ValueError):
+      Tensor.avg_pool2d(Tensor.randn((32,2,111,28)), kernel_size=(2,2), padding=(1,1,1))
 
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index e52d743ca15aa..c4d917525acea 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -482,7 +482,10 @@ def alu(ctx, x):
     if dst == src_regs[0] and len(src_regs_str) == 2:
       return [f"{operator} {_dst}, {src_regs_str[1]}"]
     elif len(src_regs_str) == 2:
-      return [f"{_mov} {_dst}, {src_regs_str[0]}",
+      clear_op = "xor" if reg_type is IReg else "xorps" if dtype.itemsize == 4 else "xorpd"
+      return [
+        f"{clear_op} {dst}, {dst}",
+        f"{_mov} {_dst}, {src_regs_str[0]}",
         f"{operator} {_dst}, {src_regs_str[1]}",]
     elif _dst == src_regs_str[0] and len(src_regs_str) == 1:
       return [f"{operator} {_dst}, {src_regs_str[0]}"]
@@ -491,7 +494,6 @@ def alu(ctx, x):
     else:
       raise Exception("ALU error handling srcs")
 
-
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
   reg_type = FReg if dtypes.is_float(acc.dtype) else IReg
@@ -833,7 +835,9 @@ def gated_load(ctx, x, bidx, alt, gate):
 
 
 complex_rewrites = PatternMatcher([
-  (UPat(Ops.LOAD, name="x", src=(UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"), UPat.var("alt")), allow_any_len=True),
+  (UPat(Ops.LOAD, name="x", src=(
+    UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"),
+    UPat.var("alt")), allow_any_len=True),
    gated_load),
   (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
   (UPat(Ops.RECIP, name="x"), recip), 
@@ -1056,7 +1060,7 @@ def render(self, uops:List[UOp]) -> str:
         l = cast(list[str], l)
         l = [*r.flush_kernel(), *l, ""]
         if DEBUG.value >= 6:
-          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:20]
+          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:30]
           l = [*uop_str, *l]
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
@@ -1102,8 +1106,8 @@ def render(self, uops:List[UOp]) -> str:
 {name}:
 {_kernel}
     """
-    if os.environ.get("MANUAL_ASM"):
-      with open("../tg-dev/max/kernel.s", "wt") as f: f.write(ret)
+    if folder:=os.environ.get("SAVE_ASM"):
+      with open(f"../tg-dev/{folder}/kernel.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From 7d00b0dea8b7cf85bb11efa26f9907c7cb3b8f05 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 12:18:16 +0800
Subject: [PATCH 126/188] xor on arm

---
 tinygrad/renderer/asm.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index c4d917525acea..f2feb31a9da04 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -476,7 +476,11 @@ def alu(ctx, x):
   _dst = dst.render(dtype.itemsize)
   src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]
   if Arch.arm:
-    return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
+    if dtype.itemsize < 4:
+      clear_op = "mov" if reg_type is IReg else "fmov"
+      clear = [f"mov {_dst}, xzr"]
+    else: clear = []
+    return [*clear, f"{operator} {_dst}, {', '.join(src_regs_str)}"]
   else:
     _mov = "mov" if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else "movss" 
     if dst == src_regs[0] and len(src_regs_str) == 2:

From 8174dda050919e8f6fb44e914ac68b0a91f84840 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 12:26:54 +0800
Subject: [PATCH 127/188] arm seem to sign extend that fixes the xor issue on
 x86, need more stack ofset

---
 tinygrad/renderer/asm.py | 18 +++++++++++-------
 1 file changed, 11 insertions(+), 7 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f2feb31a9da04..4d4a164b7daa3 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -141,7 +141,11 @@ def store(self, dst: str="") -> list[str]:
     note = f""
     if Arch.arm:
       sp = "x29"
-      if self.stack > 512:
+      if self.stack > 768:
+        sub = [f"sub x29, x29, #768"]
+        add = [f"add x29, x29, #768"]
+        stack = self.stack - 768
+      elif self.stack > 512:
         sub = [f"sub x29, x29, #512"]
         add = [f"add x29, x29, #512"]
         stack = self.stack - 512
@@ -170,7 +174,11 @@ def load(self, reg: RegBase, src: str="") -> list[str]:
     assert self.stack is not None
     if Arch.arm:
       sp = "x29"
-      if self.stack > 512:
+      if self.stack > 768:
+        sub = [f"sub x29, x29, #768"]
+        add = [f"add x29, x29, #768"]
+        stack = self.stack - 768
+      elif self.stack > 512:
         sub = [f"sub x29, x29, #512"]
         add = [f"add x29, x29, #512"]
         stack = self.stack - 512
@@ -476,11 +484,7 @@ def alu(ctx, x):
   _dst = dst.render(dtype.itemsize)
   src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]
   if Arch.arm:
-    if dtype.itemsize < 4:
-      clear_op = "mov" if reg_type is IReg else "fmov"
-      clear = [f"mov {_dst}, xzr"]
-    else: clear = []
-    return [*clear, f"{operator} {_dst}, {', '.join(src_regs_str)}"]
+    return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
   else:
     _mov = "mov" if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else "movss" 
     if dst == src_regs[0] and len(src_regs_str) == 2:

From d04c78f9508f07433dd2f458cb6ed4326d1fe6e9 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 15:30:06 +0800
Subject: [PATCH 128/188] pool running out of spill candidates because of too
 many acc

---
 test/test_ops_2.py | 22 ++++++++++++++++++++++
 1 file changed, 22 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 3bd314f093911..8c49291fa32c9 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -459,6 +459,28 @@ def test_avg_pool2d_padding(self):
     with self.assertRaises(ValueError):
       Tensor.avg_pool2d(Tensor.randn((32,2,111,28)), kernel_size=(2,2), padding=(1,1,1))
 
+  #no candidates left
+  @skipU("POOL")
+  def test_pool_sum(self):
+    shape = [(1,1,16,16,16)]
+    x, x2 = prepare_test_op(-2, 2, shape, True)
+    x2 = x2[0]
+    padding = [1,1,1,1,1,1]
+    axis = (-3, -2, -1)
+    kernel_size = (8,8,8)
+    stride = 5
+    dilation = 1
+    x2.ones_like().pad(padding)._pool(kernel_size, stride, dilation).sum(axis).realize()
+    #y = Tensor.avg_pool2d(x2, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False)
+    #y.realize()
+
+  @skipU("MANUAL")
+  def test_manual(self):
+    with Context(NOOPT=0):
+      helper_test_op([(1,1,16,16,16)],
+        lambda x: torch.nn.functional.avg_pool3d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False),
+        lambda x: Tensor.avg_pool2d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False), rtol=1e-5, forward_only=True)
+
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()

From 31c4592205b7290098be2661f82c7452ffbfbfd4 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 15:41:28 +0800
Subject: [PATCH 129/188] acc do not reserve

---
 test/test_ops_2.py       |  8 +++++---
 tinygrad/renderer/asm.py | 30 +++++++++++++++---------------
 2 files changed, 20 insertions(+), 18 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 8c49291fa32c9..5958c23ad1f49 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -460,7 +460,6 @@ def test_avg_pool2d_padding(self):
       Tensor.avg_pool2d(Tensor.randn((32,2,111,28)), kernel_size=(2,2), padding=(1,1,1))
 
   #no candidates left
-  @skipU("POOL")
   def test_pool_sum(self):
     shape = [(1,1,16,16,16)]
     x, x2 = prepare_test_op(-2, 2, shape, True)
@@ -474,13 +473,16 @@ def test_pool_sum(self):
     #y = Tensor.avg_pool2d(x2, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False)
     #y.realize()
 
-  @skipU("MANUAL")
-  def test_manual(self):
+  def test_avg_pool3d_failure(self):
     with Context(NOOPT=0):
       helper_test_op([(1,1,16,16,16)],
         lambda x: torch.nn.functional.avg_pool3d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False),
         lambda x: Tensor.avg_pool2d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False), rtol=1e-5, forward_only=True)
 
+  @skipU("MANUAL")
+  def test_manual(self):
+    pass
+
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4d4a164b7daa3..69d463be942c0 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -275,7 +275,7 @@ def alloc_multiple(self, num: int, reg_type: type[RegBase], excludes: list[RegBa
   def share(self, dst: UOp, src: UOp):
     dst_var, src_var = self.uops[dst], self.uops[src]
     reg = src_var.reg
-    assert reg, f"Source UOp must already been assigned to register {src}"
+    assert reg, f"Source UOp must already been assigned to register {src} {reg=}"
     dst_var.reg = reg
 
   def return_reg(self, regs: list[RegBase]):
@@ -390,7 +390,7 @@ def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: li
     candidates = [(u,v) for u, v in candidates if v.reg not in self.reserved]
     candidates = [(u,v) for u, v in candidates if v.reg not in self.blocked]
     candidates = [(u,v) for u, v in candidates if v.reg not in excludes]
-    assert len(candidates), "no candidates left"
+    assert len(candidates), f"no candidates left {reg_type=} {self.reserved=}"
     candidates = sorted(candidates, key=lambda u_v: u_v[1].end, reverse=True)
     assert len(candidates) >= num, "Not enough registers to fulfill spill"
     candidates = candidates[:num]
@@ -505,8 +505,8 @@ def alu(ctx, x):
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
   reg_type = FReg if dtypes.is_float(acc.dtype) else IReg
-  _acc = ctx.r.uops[acc].reg.render(dtype.itemsize)
-  _src = ctx.r.assign(src, reg_type=reg_type).render(dtype.itemsize)
+  acc_reg, src_reg = ctx.r.assign_multiple([acc, src], reg_type=reg_type)
+  _acc, _src = acc_reg.render(dtype.itemsize), src_reg.render(dtype.itemsize)
   ctx.r.share(x, acc)
   reg_type = IReg if dtypes.is_int(dtype) else FReg
   operator = AluOps.get((Ops.ADD, Arch.arch, reg_type, 8*x.dtype.itemsize))
@@ -577,7 +577,7 @@ def _index(ctx, x):
 
 def assign(ctx, x):
   reg_type = IReg if dtypes.is_int(x.src[0].dtype) or dtypes.is_bool(x.src[0].dtype) else FReg
-  x_src_0_reg = ctx.r.uops[x.src[0]].reg
+  x_src_0_reg = ctx.r.assign(x.src[0], reg_type=reg_type)
   ctx.r.share(x, x.src[0])
   dst, src = ctx.r.assign_multiple([x, x.src[1]], excludes=[x_src_0_reg], reg_type=reg_type)
   
@@ -888,15 +888,15 @@ def gated_load(ctx, x, bidx, alt, gate):
       lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
 
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=True)}, {ctx.r.assign_i64(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=False)}, {ctx.r.assign_i64(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x, reserve=True)}, {ctx.r.assign_f32(src)}"]),
+      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x, reserve=False)}, {ctx.r.assign_f32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
+      lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
 
   (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
@@ -942,15 +942,15 @@ def gated_load(ctx, x, bidx, alt, gate):
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_f64(src)}, [{ctx.r.assign_i64(addr)}]"]),
 
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=True)}, {ctx.r.assign_i32(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=True)}, {ctx.r.assign_i64(src)}"]),
+      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=False)}, {ctx.r.assign_i64(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"fmov {ctx.r.assign_f32(x, reserve=True)}, {ctx.r.assign_f32(src)}"]),
+      lambda ctx, x, src: [f"fmov {ctx.r.assign_f32(x, reserve=False)}, {ctx.r.assign_f32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=True)}, {ctx.r.assign_f64(src)}"]),
+      lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
 
   (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldrb {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),

From 957c8fb31cab705e9b5ace87c9aa1d32123cb450 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 15:56:00 +0800
Subject: [PATCH 130/188] arm can handle large stack size

---
 tinygrad/renderer/asm.py | 62 ++++++++++++++++++----------------------
 1 file changed, 28 insertions(+), 34 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 69d463be942c0..4af0df6f92e76 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -141,22 +141,14 @@ def store(self, dst: str="") -> list[str]:
     note = f""
     if Arch.arm:
       sp = "x29"
-      if self.stack > 768:
-        sub = [f"sub x29, x29, #768"]
-        add = [f"add x29, x29, #768"]
-        stack = self.stack - 768
-      elif self.stack > 512:
-        sub = [f"sub x29, x29, #512"]
-        add = [f"add x29, x29, #512"]
-        stack = self.stack - 512
-      elif self.stack > 256:
-        sub = [f"sub x29, x29, #256"]
-        add = [f"add x29, x29, #256"]
-        stack = self.stack - 256
-      else:
-        stack = self.stack
-        sub, add = [], []
-
+      stack = self.stack
+      sub = []
+      add = []
+      while stack > 255:
+        sub.append(f"sub x29, x29, #255")
+        add.insert(0, f"add x29, x29, #255")
+        stack -= 255
+      assert stack <=255
       return [
         *sub,
         f"str {self.reg.render64()}, [{sp}, #-{stack}]",
@@ -174,22 +166,14 @@ def load(self, reg: RegBase, src: str="") -> list[str]:
     assert self.stack is not None
     if Arch.arm:
       sp = "x29"
-      if self.stack > 768:
-        sub = [f"sub x29, x29, #768"]
-        add = [f"add x29, x29, #768"]
-        stack = self.stack - 768
-      elif self.stack > 512:
-        sub = [f"sub x29, x29, #512"]
-        add = [f"add x29, x29, #512"]
-        stack = self.stack - 512
-      elif self.stack > 256:
-        sub = [f"sub x29, x29, #256"]
-        add = [f"add x29, x29, #256"]
-        stack = self.stack - 256
-      else:
-        stack = self.stack
-        sub, add = [], []
-
+      stack = self.stack
+      sub = []
+      add = []
+      while stack > 255:
+        sub.append(f"sub x29, x29, #255")
+        add.insert(0, f"add x29, x29, #255")
+        stack -= 255
+      assert stack <=255
       return [
         *sub,
         f"ldr {reg.render64()}, [{sp}, #-{stack}]",
@@ -1073,16 +1057,26 @@ def render(self, uops:List[UOp]) -> str:
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
         kernel.extend(l)
+    if Arch.x86:
+      stack_alloc = [f"sub rsp, {r.stack_size}"]
+    else:
+      stack_alloc = []
+      stack = r.stack_size
+      while stack > 4096:
+        stack_alloc.append(f"sub sp, sp, #4096")
+        stack -= 4096
+      stack_alloc.append(f"sub sp, sp, #{stack}")
+
     prologue = [
       "stp x29, x30, [sp, #-16]!",
       "mov x29, sp",
       "mov x30, sp",
       "sub x30, x30, #255",
-      f"sub sp, sp, #{r.stack_size}",
+      *stack_alloc
     ] if self.arm else [
       "push rbp",
       "mov rbp, rsp",
-      f"sub rsp, {r.stack_size}",
+      *stack_alloc,
     ]
     epilogue = [
       f"mov sp, x29;",

From 5f1fcf5e61c050e506c065b07cb205705fd53c9f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Wed, 30 Jul 2025 21:06:24 +0800
Subject: [PATCH 131/188] sigmoid passes on x86

---
 test/test_ops_2.py | 44 ++++++++++++++++++++++++++++++++++++++++++--
 1 file changed, 42 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 5958c23ad1f49..f7ce53ec053d4 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -479,10 +479,50 @@ def test_avg_pool3d_failure(self):
         lambda x: torch.nn.functional.avg_pool3d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False),
         lambda x: Tensor.avg_pool2d(x, kernel_size=(8,8,8), stride=5, padding=1, count_include_pad=False), rtol=1e-5, forward_only=True)
 
+  def test_sigmoid(self):
+    helper_test_op([(45,65)], torch.sigmoid, Tensor.sigmoid)
+  def test_sigmoid_extreme(self):
+    helper_test_op([(45,65)], torch.sigmoid, Tensor.sigmoid, low=300, high=400)
+    helper_test_op([(45,65)], torch.sigmoid, Tensor.sigmoid, low=-400, high=-300)
+    x = Tensor([300.0])
+    self.assertAlmostEqual(x.sigmoid()[0].gradient(x)[0].item(), 0.0)
+    x = Tensor([-300.0])
+    self.assertAlmostEqual(x.sigmoid()[0].gradient(x)[0].item(), 0.0)
+
+  def test_sigmoid_alt_extreme(self):
+    def sigmoid(x:Tensor): return x.exp() / (1 + x.exp())
+    x = Tensor([300.0])
+    self.assertAlmostEqual(sigmoid(x)[0].gradient(x)[0].item(), 0.0)
+    x = Tensor([-300.0])
+    self.assertAlmostEqual(sigmoid(x)[0].gradient(x)[0].item(), 0.0)
+
+  def test_logsigmoid(self):
+    helper_test_op([(45,65)], torch.nn.functional.logsigmoid, Tensor.logsigmoid)
+    helper_test_op([()], torch.nn.functional.logsigmoid, Tensor.logsigmoid)
+
+  def test_hardsigmoid(self):
+    helper_test_op([(45,65)], torch.nn.functional.hardsigmoid, Tensor.hardsigmoid)
+    helper_test_op([()], torch.nn.functional.hardsigmoid, Tensor.hardsigmoid)
+  def test_hardsigmoid_extreme(self):
+    helper_test_op([(45,65)], torch.sigmoid, Tensor.sigmoid, low=300, high=400)
+    helper_test_op([(45,65)], torch.sigmoid, Tensor.sigmoid, low=-400, high=-300)
+  def test_softplus(self):
+    helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6)
+    helper_test_op([(45,65)], lambda t: torch.nn.functional.softplus(t, beta=3), lambda t: Tensor.softplus(t, beta=3), grad_atol=1e-6)
+    helper_test_op([(45,65)], lambda t: torch.nn.functional.softplus(t, beta=1/3), lambda t: Tensor.softplus(t, beta=1/3), grad_atol=1e-6)
+    # # TODO: support threshold and enable this
+    # helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6, low=300, high=400)
+    helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6, low=-400, high=-300)
+    helper_test_op([()], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6)
   @skipU("MANUAL")
   def test_manual(self):
-    pass
-
+    r = "none"
+    #shape = [(32, 10), (32, 10)]
+    shape = [(4, 5), (4, 5)]
+    x1, x2 = prepare_test_op(-2, 2, shape, True)
+    x, y = x2
+    x.sigmoid().binary_crossentropy(y.clip(0,1), reduction=r).realize()
+    return
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()

From a55591a07a9493a7f307caa8e5e6c6d24dac6a7a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 31 Jul 2025 00:13:43 +0800
Subject: [PATCH 132/188] idiv refactor on x86

---
 test/test_ops_2.py       |  6 ++++--
 tinygrad/renderer/asm.py | 24 ++++++++++++------------
 2 files changed, 16 insertions(+), 14 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index f7ce53ec053d4..f268328e2cfc2 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -514,14 +514,16 @@ def test_softplus(self):
     # helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6, low=300, high=400)
     helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6, low=-400, high=-300)
     helper_test_op([()], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6)
+
   @skipU("MANUAL")
   def test_manual(self):
     r = "none"
     #shape = [(32, 10), (32, 10)]
-    shape = [(4, 5), (4, 5)]
+    shape = [(5,4), (5,4)]
     x1, x2 = prepare_test_op(-2, 2, shape, True)
     x, y = x2
-    x.sigmoid().binary_crossentropy(y.clip(0,1), reduction=r).realize()
+    with Context(NOOPT=0):
+      x.sigmoid().binary_crossentropy(y.clip(0,1), reduction=r).realize()
     return
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4af0df6f92e76..d11c37511e624 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -734,26 +734,26 @@ def _where(ctx, x):
 def idiv(ctx, x):
   dividend, divisor = x.src
   if Arch.x86:
-    _dividend = ctx.r.assign(dividend, reg_type=IReg)
-    _x = ctx.r.assign_reg(IReg(0), x)
-    _divisor = ctx.r.assign(divisor, reg_type=IReg)
-    mov2 = None
+    vars_holding_eax = ctx.r.find_vars_holding_reg(IReg(0))
     vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
+    mov2 = []
+    if len(vars_holding_eax) >= 1:
+      var = vars_holding_eax[0]
+      ctx.r._spill(IReg(0))
+      mov2.extend(var.load(IReg(0)))
     if len(vars_holding_edx) >= 1:
       var = vars_holding_edx[0]
       ctx.r._spill(IReg(2))
-      _mov = ctx.r.flush_kernel()
-      mov2 = var.load(IReg(2))
-    else:
-      _mov = ctx.r.flush_kernel()
-    ctx.r.uops[x].reg = IReg(0)
+      mov2.extend(var.load(IReg(2)))
+    _dividend, _divisor, _dst = ctx.r.assign_multiple([dividend, divisor, x],
+                                                reg_type=IReg, excludes=[IReg(0), IReg(2)])
     ret = [
-      *_mov,
       f"mov rax, {_dividend.render64()}",
       "cdq",
       f"idiv {_divisor.render32()}",
+      f"mov {_dst}, rax",
+      *mov2,
     ]
-    if mov2: ret += mov2
     return ret
   else:
     _dividend, _divisor, _quotient = ctx.r.assign_multiple(
@@ -1052,7 +1052,7 @@ def render(self, uops:List[UOp]) -> str:
         l = cast(list[str], l)
         l = [*r.flush_kernel(), *l, ""]
         if DEBUG.value >= 6:
-          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:30]
+          uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:]
           l = [*uop_str, *l]
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")

From 8c3a101896706aa1cc806426591a39d87519f003 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 31 Jul 2025 09:34:57 +0800
Subject: [PATCH 133/188]  more idiv fixes

---
 test/test_ops_2.py       | 46 +++++++++++++++++++++++++++++++++++++---
 tinygrad/renderer/asm.py | 11 +++++++---
 2 files changed, 51 insertions(+), 6 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index f268328e2cfc2..d8a231f862d49 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -515,8 +515,7 @@ def test_softplus(self):
     helper_test_op([(45,65)], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6, low=-400, high=-300)
     helper_test_op([()], torch.nn.functional.softplus, Tensor.softplus, grad_atol=1e-6)
 
-  @skipU("MANUAL")
-  def test_manual(self):
+  def test_cross_entropy_1(self):
     r = "none"
     #shape = [(32, 10), (32, 10)]
     shape = [(5,4), (5,4)]
@@ -524,7 +523,48 @@ def test_manual(self):
     x, y = x2
     with Context(NOOPT=0):
       x.sigmoid().binary_crossentropy(y.clip(0,1), reduction=r).realize()
-    return
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy(x.sigmoid(),y.clip(0,1)),
+                                       lambda x,y: x.sigmoid().binary_crossentropy(y.clip(0,1)))
+
+  def test_binary_crossentropy(self):
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy(x.sigmoid(),y.clip(0,1)),
+                                       lambda x,y: x.sigmoid().binary_crossentropy(y.clip(0,1)))
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x,y.clip(0,1)),
+                                       lambda x,y: x.binary_crossentropy_logits(y.clip(0,1)))
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x,y.clip(0,1)),
+                                       lambda x,y: x.sigmoid().binary_crossentropy(y.clip(0,1)))
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy(x.sigmoid(),y.clip(0,1)),
+                                       lambda x,y: x.binary_crossentropy_logits(y.clip(0,1)))
+  def test_binary_crossentropy_reductions(self):
+    for r in ("mean", "sum", "none"):
+      helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy(x.sigmoid(), y.clip(0,1), reduction=r),
+                                         lambda x,y: x.sigmoid().binary_crossentropy(y.clip(0,1), reduction=r))
+      helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x, y.clip(0,1), reduction=r),
+                                         lambda x,y: x.binary_crossentropy_logits(y.clip(0,1), reduction=r))
+  def test_binary_crossentropy_logits_pos_weights(self):
+    pos_weight = [0.25, 0.5, 0.75, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x,y.clip(0,1),
+                                                                                                        pos_weight=torch.tensor(pos_weight)),
+                                       lambda x,y: x.binary_crossentropy_logits(y.clip(0,1),pos_weight=Tensor(pos_weight)))
+  def test_cross_entropy_class_probabilities(self):
+    helper_test_op([(32,), (32,)], lambda x,y: torch.nn.functional.cross_entropy(x, y), lambda x,y: x.cross_entropy(y))
+    helper_test_op([(32,10), (32,10)], lambda x,y: torch.nn.functional.cross_entropy(x, y), lambda x,y: x.cross_entropy(y))
+    helper_test_op([(32,4,4,4), (32,4,4,4)], lambda x,y: torch.nn.functional.cross_entropy(x, y), lambda x,y: x.cross_entropy(y))
+
+  def test_cross_entropy_2(self):
+    r = "none"
+    shape = [(32, 10), (32, 10)]
+    shape = [(5, 4), (5, 4)]
+    x1, x2 = prepare_test_op(-2, 2, shape, True)
+    x, y = x2
+    with Context(NOOPT=0):
+      x.sigmoid().binary_crossentropy(y.clip(0,1)).realize()
+
+  @skipU("MANUAL")
+  def test_manual(self):
+    shape = (5, 4)
+    helper_test_op([shape, shape], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x,y.clip(0,1)),
+                                       lambda x,y: x.binary_crossentropy_logits(y.clip(0,1)))
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index d11c37511e624..894c45326894a 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -740,13 +740,18 @@ def idiv(ctx, x):
     if len(vars_holding_eax) >= 1:
       var = vars_holding_eax[0]
       ctx.r._spill(IReg(0))
-      mov2.extend(var.load(IReg(0)))
     if len(vars_holding_edx) >= 1:
       var = vars_holding_edx[0]
       ctx.r._spill(IReg(2))
+    _dividend, _divisor, _dst = ctx.r.assign_multiple(
+      [dividend, divisor, x],
+      reg_type=IReg, excludes=[IReg(0), IReg(2)])
+    if len(vars_holding_eax) >= 1:
+      var = vars_holding_eax[0]
+      mov2.extend(var.load(IReg(0)))
+    if len(vars_holding_edx) >= 1:
+      var = vars_holding_edx[0]
       mov2.extend(var.load(IReg(2)))
-    _dividend, _divisor, _dst = ctx.r.assign_multiple([dividend, divisor, x],
-                                                reg_type=IReg, excludes=[IReg(0), IReg(2)])
     ret = [
       f"mov rax, {_dividend.render64()}",
       "cdq",

From b49267a129fdb55be230794f040914eb91951a8f Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 31 Jul 2025 13:44:03 +0800
Subject: [PATCH 134/188] no more segfaults

---
 test/test_ops_2.py       | 48 +++++++++++++++++++++++++++++++++++++---
 tinygrad/renderer/asm.py |  4 +++-
 2 files changed, 48 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d8a231f862d49..83cbf20b913ad 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -560,11 +560,53 @@ def test_cross_entropy_2(self):
     with Context(NOOPT=0):
       x.sigmoid().binary_crossentropy(y.clip(0,1)).realize()
 
+  def test_pad_reflect_mode(self):
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (0,2,3,2), mode="reflect"), lambda x: x.pad((0,2,3,2), mode="reflect"))
+    helper_test_op([(5,5,5)], lambda x: torch.nn.functional.pad(x, (0,2), mode="reflect"), lambda x: x.pad((0,2), mode="reflect"))
+    helper_test_op([(3,3,3,3)], lambda x: torch.nn.functional.pad(x, (-1,2,2,-1), mode="reflect"), lambda x: x.pad((-1,2,2,-1), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (3,-3,0,-3), mode="reflect"), lambda x: x.pad((3,-3,0,-3), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (3,-5,1,-5), mode="reflect"), lambda x: x.pad((3,-5,1,-5), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (0,0,0,-5), mode="reflect"), lambda x: x.pad((0,0,0,-5), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (4,4,0,4), mode="reflect"), lambda x:x.pad((4,4,0,4),mode="reflect"))
+    self.helper_test_exception([(1,1,5,5)],
+                                lambda x: torch.nn.functional.pad(x, (3,5,0,0),mode="reflect"), lambda x: x.pad((3,5,0,0),mode="reflect"),
+                                expected=(RuntimeError, ValueError))
+
+  def helper_test_exception(self, shps, torch_fxn, tinygrad_fxn, expected, forward_only=False, exact=False, vals=None, low=-1.5, high=1.5):
+    if getenv("MOCKGPU") and Device.DEFAULT == "NV": self.skipTest('helper_test_exception fails in CI CUDA')
+    ts, tst = prepare_test_op(low, high, shps, vals, forward_only)
+    with self.assertRaises(expected) as torch_cm:
+      torch_fxn(*ts)
+    with self.assertRaises(expected) as tinygrad_cm:
+      tinygrad_fxn(*tst)
+    if exact: self.assertEqual(str(torch_cm.exception), str(tinygrad_cm.exception))
+    if not CI: print("\ntesting %40r   torch/tinygrad exception: %s / %s" % (shps, torch_cm.exception, tinygrad_cm.exception), end="")
+
+  def test_pad_reflect_mode(self):
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (0,2,3,2), mode="reflect"), lambda x: x.pad((0,2,3,2), mode="reflect"))
+    helper_test_op([(5,5,5)], lambda x: torch.nn.functional.pad(x, (0,2), mode="reflect"), lambda x: x.pad((0,2), mode="reflect"))
+    helper_test_op([(1,1,5,5,5)], lambda x: torch.nn.functional.pad(x, (1,2,3,4,1,2), mode="reflect"),
+                                  lambda x: x.pad((1,2,3,4,1,2), mode="reflect"))
+    helper_test_op([(3,3,3,3)], lambda x: torch.nn.functional.pad(x, (-1,2,2,-1), mode="reflect"), lambda x: x.pad((-1,2,2,-1), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (3,-3,0,-3), mode="reflect"), lambda x: x.pad((3,-3,0,-3), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (3,-5,1,-5), mode="reflect"), lambda x: x.pad((3,-5,1,-5), mode="reflect"))
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (0,0,0,-5), mode="reflect"), lambda x: x.pad((0,0,0,-5), mode="reflect"))
+
+    # max pad size for reflect is exactly once: pad < input size
+    helper_test_op([(1,1,5,5)], lambda x: torch.nn.functional.pad(x, (4,4,0,4), mode="reflect"), lambda x:x.pad((4,4,0,4),mode="reflect"))
+    # raise error for relfection padding when: pad >= input size
+    self.helper_test_exception([(1,1,5,5)],
+                                lambda x: torch.nn.functional.pad(x, (3,5,0,0),mode="reflect"), lambda x: x.pad((3,5,0,0),mode="reflect"),
+                                expected=(RuntimeError, ValueError))
   @skipU("MANUAL")
   def test_manual(self):
-    shape = (5, 4)
-    helper_test_op([shape, shape], lambda x,y: torch.nn.functional.binary_cross_entropy_with_logits(x,y.clip(0,1)),
-                                       lambda x,y: x.binary_crossentropy_logits(y.clip(0,1)))
+    #shape = (1,1,5,5,5)
+    #np_data = np.random.uniform(low=-2, high=2, size=shape).astype(_to_np_dtype(dtypes.default_float))
+    #x = Tensor(np_data).reshape((1,1,5,5,5)).pad((1,2,3,4,1,2), mode="reflect")
+    #print(x.numpy())
+    #return
+    helper_test_op([(1,1,5,5,5)], lambda x: torch.nn.functional.pad(x, (1,2,3,4,1,2), mode="reflect"),
+                                  lambda x: x.pad((1,2,3,4,1,2), mode="reflect"))
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 894c45326894a..9bb61144c880a 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -326,7 +326,8 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
         need_alloc.append(i)
       else:
         regs[i] = _reg
-    alloc_regs = self.alloc_multiple(len(need_alloc), reg_type, excludes)
+    existing_regs = [reg for reg in regs if reg is not None]
+    alloc_regs = self.alloc_multiple(len(need_alloc), reg_type, existing_regs + excludes)
     for i, reg in zip(need_alloc, alloc_regs):
       uop = uops[i]
       var = self.uops[uop]
@@ -550,6 +551,7 @@ def _index(ctx, x):
   src0, src1 = x.src[0], x.src[1]
   regs = ctx.r.assign_multiple([src0, src1, x], IReg)
   src0_reg, src1_reg, reg = regs
+  assert src0_reg != src1_reg and src0_reg != reg and src1_reg != reg
   src0_str = src0_reg.render64()
   src1_str = src1_reg.render64()
   multiplier = src0.dtype.itemsize

From 43a398679811c6d4322c79dfc18eba8dafae243e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Thu, 31 Jul 2025 22:40:56 +0800
Subject: [PATCH 135/188] running out of regs, some are orphaned

---
 test/test_ops_2.py | 25 +++++++++++++++++++++++++
 1 file changed, 25 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 83cbf20b913ad..0d60ec4716764 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -608,6 +608,31 @@ def test_manual(self):
     helper_test_op([(1,1,5,5,5)], lambda x: torch.nn.functional.pad(x, (1,2,3,4,1,2), mode="reflect"),
                                   lambda x: x.pad((1,2,3,4,1,2), mode="reflect"))
 
+  def test_all_axis(self):
+    helper_test_op([(3,4,5,6)], lambda x: x.all(axis=(1,2)), forward_only=True)
+
+
+  @skipU("MANUAL")
+  def test_broadcast_full(self):
+    for torch_op, tinygrad_op in [(torch.add, Tensor.add), (torch.sub, Tensor.sub), (torch.mul, Tensor.mul),
+                                  (torch.div, Tensor.div), (torch.pow, Tensor.pow)]:
+      for shapes in [((5,13,24,16), (5,1,24,1)), ((1,3,1,7,1), (2,1,5,1,8))]:
+        print(f"{tinygrad_op=} {shapes=}")
+        with self.subTest(op=torch_op.__name__, shapes=shapes):
+          if tinygrad_op != Tensor.pow:
+            helper_test_op(shapes, torch_op, tinygrad_op)
+          else:
+            helper_test_op(shapes, torch_op, tinygrad_op, low=0, high=3)
+  @skipU("MANUAL")
+  def test_broadcast_pow(self):
+    tinygrad_op = Tensor.pow
+    torch_op = torch.pow
+    shapes = ((5, 13, 24, 16), (5, 1, 24, 1))
+    s = 20
+    shapes = ((5, 13, s, 16),  (5, 1, s, 1))
+    helper_test_op(shapes, torch_op, tinygrad_op, low=0, high=3)
+
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()

From f3aa62da6c87144c1fb5edc368a805cde4ff6e17 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 16:23:52 +0800
Subject: [PATCH 136/188] allocator pool

---
 tinygrad/renderer/asm.py | 30 +++++++++++++++++++++++++++---
 1 file changed, 27 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9bb61144c880a..cd327ea03e800 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -208,11 +208,35 @@ def copy(self, dst: RegBase) -> list[str]:
   4: 8, #R8
   5: 9, #R9 
 }
+
+class AllocatorPool:
+  def __init__(self, reg_type: type[RegBase], num: int):
+    self.reg_type, self.num = reg_type, num
+    self._pool: list[RegBase] = [reg_type(i) for i in range(num)]
+
+  @property
+  def pool(self):
+    return self._pool
+
+  def __len__(self): return len(self._pool)
+
+  def pop(self, i):
+    return self._pool.pop(i)
+  
+  def insert(self, i, v):
+    self._pool.insert(i, v)
+
+  def index(self, reg):
+    return self._pool.index(reg)
+
+  def __getitem__(self, i):
+    return self._pool[i]
+
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int):
-    self.pools: dict[type[RegBase], list[RegBase]] = {
-      IReg: [IReg(i) for i in range(num_ireg)],
-      FReg: [FReg(i) for i in range(num_freg)]
+    self.pools: dict[type[RegBase], AllocatorPool] = {
+      IReg: AllocatorPool(IReg, num_ireg),
+      FReg: AllocatorPool(FReg, num_ireg),
     }
     self.uops: dict[UOp, Variable] = {}
     self.reserved: dict[RegBase, int] = {}

From 73b85d5032bf9ac44fb7a76933cbe735a443bc1a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 16:34:12 +0800
Subject: [PATCH 137/188] allocator pool cont'd

---
 tinygrad/renderer/asm.py | 15 ++++++++++++++-
 1 file changed, 14 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index cd327ea03e800..ac7fa87333cbe 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -213,6 +213,7 @@ class AllocatorPool:
   def __init__(self, reg_type: type[RegBase], num: int):
     self.reg_type, self.num = reg_type, num
     self._pool: list[RegBase] = [reg_type(i) for i in range(num)]
+    self._acquired: dict[RegBase, set[Variable]] = defaultdict(set)
 
   @property
   def pool(self):
@@ -221,7 +222,8 @@ def pool(self):
   def __len__(self): return len(self._pool)
 
   def pop(self, i):
-    return self._pool.pop(i)
+    reg = self._pool.pop(i)
+    return reg
   
   def insert(self, i, v):
     self._pool.insert(i, v)
@@ -232,6 +234,13 @@ def index(self, reg):
   def __getitem__(self, i):
     return self._pool[i]
 
+  def acquired_by(self, reg: RegBase, var: Variable):
+    self._acquired[reg].add(var)
+  def release(self, reg: RegBase, var: Variable):
+    self._acquired[reg].discard(var)
+    if len(self._acquired[reg]) == 0:
+      del self._acquired[reg]
+
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int):
     self.pools: dict[type[RegBase], AllocatorPool] = {
@@ -296,6 +305,7 @@ def move_var_to_stack(self, v: Variable):
     reg = v.reg
     assert reg
     self.return_reg([reg])
+    self.pools[type(reg)].release(reg, v)
     assert reg is not None
     self._spill(reg)
     v.reg = None
@@ -311,6 +321,7 @@ def assign(self, _key: UOp,
       return reg
     else:
       reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
+      self.pools[reg_type].acquired_by(reg, var)
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
@@ -330,6 +341,7 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False) -> None:
     uop = _key
     var = self.uops[uop]
     self.alloc_reg(reg)
+    self.pools[type(reg)].acquired_by(reg, var)
     if var.reg is not None:
       self.kernel.extend(var.copy(reg))
     var.reg = reg
@@ -359,6 +371,7 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
         self.kernel.extend(var.load(reg))
       var.reg = reg
       regs[i] = reg
+      self.pools[reg_type].acquired_by(reg, var)
     for reg in regs: assert reg is not None
     regs2 = cast(list[RegBase], regs)
     return regs2

From ae57e7d51ac1687d6893473c3887efcea6379221 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 16:37:08 +0800
Subject: [PATCH 138/188] allocator pool cont'd

---
 tinygrad/renderer/asm.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ac7fa87333cbe..38a2f4743e9bd 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1073,8 +1073,12 @@ def render(self, uops:List[UOp]) -> str:
         v = r.uops[u]
         print(i, v, oneline_uop(u))
     if Arch.x86:
-      r.pools[IReg].pop(r.pools[IReg].index(IReg(5)))
+      r.blocked.append(IReg(5))
 
+    for i,u in enumerate(uops):
+      if u.op is Ops.DEFINE_GLOBAL:
+        self.r.move_var_to_stack(r.uops[u])
+        kernel.extend(self.r.flush_kernel())
     for i,u in enumerate(uops):
       self.r.cur_step = i
       if DEBUG.value >= 6:
@@ -1085,8 +1089,7 @@ def render(self, uops:List[UOp]) -> str:
           print(self.r.uops[src])
       r.free_expired(i)
       if u.op is Ops.DEFINE_GLOBAL:
-        self.r.move_var_to_stack(r.uops[u])
-        kernel.extend(self.r.flush_kernel())
+        pass
       elif u.op is Ops.SINK:
         if u.arg is not None: name = u.arg.function_name
       else:

From 2b6b262962f996df8b4d6881721dec347148799b Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 19:08:05 +0800
Subject: [PATCH 139/188] allocator pool cont'd

---
 tinygrad/renderer/asm.py | 57 ++++++++++++++++++++++++++--------------
 1 file changed, 38 insertions(+), 19 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 38a2f4743e9bd..e470f724554c1 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -111,7 +111,7 @@ def name(self): return repr(self.uop)[:100]
   @property
   def reg(self): return self._reg
   @reg.setter
-  def reg(self, v: RegBase):
+  def reg(self, v: Union[RegBase, None]):
     if self.track_reg:
       print(f"\033[31m{v} -> {self=}\033[0m")
       print(f"\t{oneline_uop(self.uop)}")
@@ -234,9 +234,13 @@ def index(self, reg):
   def __getitem__(self, i):
     return self._pool[i]
 
-  def acquired_by(self, reg: RegBase, var: Variable):
+  def acquire_reg(self, reg: RegBase, var: Variable):
+    print(f"{var} acquired {reg}")
     self._acquired[reg].add(var)
-  def release(self, reg: RegBase, var: Variable):
+  def release_reg(self, reg: RegBase, var: Variable):
+    print(f"releasing {var} of {reg}")
+    acquired = self._acquired[reg]
+    #if var not in acquired: raise Exception(f"Not yet acquired: {var=} {reg=} {acquired=}")
     self._acquired[reg].discard(var)
     if len(self._acquired[reg]) == 0:
       del self._acquired[reg]
@@ -305,10 +309,10 @@ def move_var_to_stack(self, v: Variable):
     reg = v.reg
     assert reg
     self.return_reg([reg])
-    self.pools[type(reg)].release(reg, v)
     assert reg is not None
     self._spill(reg)
     v.reg = None
+    self.pools[type(reg)].release_reg(reg, v)
 
   def assign(self, _key: UOp,
              reg_type: type[RegBase],
@@ -321,7 +325,7 @@ def assign(self, _key: UOp,
       return reg
     else:
       reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
-      self.pools[reg_type].acquired_by(reg, var)
+      self.pools[reg_type].acquire_reg(reg, var)
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
@@ -341,7 +345,7 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False) -> None:
     uop = _key
     var = self.uops[uop]
     self.alloc_reg(reg)
-    self.pools[type(reg)].acquired_by(reg, var)
+    self.pools[type(reg)].acquire_reg(reg, var)
     if var.reg is not None:
       self.kernel.extend(var.copy(reg))
     var.reg = reg
@@ -371,7 +375,7 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
         self.kernel.extend(var.load(reg))
       var.reg = reg
       regs[i] = reg
-      self.pools[reg_type].acquired_by(reg, var)
+      self.pools[reg_type].acquire_reg(reg, var)
     for reg in regs: assert reg is not None
     regs2 = cast(list[RegBase], regs)
     return regs2
@@ -380,15 +384,19 @@ def release(self, reg: RegBase): del self.reserved[reg]
 
   def free_expired(self, i: int):
     expired: list[UOp] = []
-    assigned_regs: dict[RegBase, int] = defaultdict(int)
+    assigned_regs: dict[RegBase, set[Variable]] = defaultdict(set)
     for uop, var in self.uops.items():
       if var.end < i: expired.append(uop)
-      if var.reg: assigned_regs[var.reg] += 1
-      if var.reg and var.end < i: assigned_regs[var.reg] -= 1
+      if var.reg: assigned_regs[var.reg].add(var)
+      if var.reg and var.end < i:
+        reg = var.reg
+        pool = self.pools[type(reg)]
+        pool.release_reg(reg, var)
+        assigned_regs[var.reg].remove(var)
     for uop in expired:
       del self.uops[uop]
-    for reg, count in assigned_regs.items():
-      if count == 0:
+    for reg, vars in assigned_regs.items():
+      if len(vars) == 0:
         pool = self.pools[type(reg)]
         pool.insert(0, reg)
         if self.reserved.get(reg):
@@ -402,6 +410,9 @@ def _spill(self, reg: RegBase) -> None:
         self.stack_size += (var.reg.size // 8)
         var.stack = self.stack_size
       self.kernel.extend(var.store())
+    for var in vars:
+      assert var.reg is not None
+      pool.release_reg(var.reg, var)
       var.reg = None
   def _find_spill_candidates(self, num: int, reg_type: type[RegBase], excludes: list[RegBase]=[]):
     candidates: list[tuple[UOp, Variable]] = []
@@ -869,7 +880,6 @@ def gated_load(ctx, x, bidx, alt, gate):
       f".END{step}:",
     ]
 
-
 complex_rewrites = PatternMatcher([
   (UPat(Ops.LOAD, name="x", src=(
     UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"),
@@ -1044,11 +1054,13 @@ def render(self, uops:List[UOp]) -> str:
     var_intervals: dict[UOp, Variable] = OrderedDict()
     for i, u in enumerate(uops):
       var = Variable(u, i, -1)
-      if u.op is Ops.DEFINE_GLOBAL:
+      if False and u.op is Ops.DEFINE_GLOBAL:
         if Arch.arm:
           var.reg = r.pools[IReg].pop(0)
         else:
           reg_num = x86_params[u.arg]
+          reg = IReg(reg_num)
+          pool = r.pools[IReg]
           reg_idx = r.pools[IReg].index(IReg(reg_num))
           assert reg_idx > -1
           var.reg = r.pools[IReg].pop(reg_idx)
@@ -1075,10 +1087,6 @@ def render(self, uops:List[UOp]) -> str:
     if Arch.x86:
       r.blocked.append(IReg(5))
 
-    for i,u in enumerate(uops):
-      if u.op is Ops.DEFINE_GLOBAL:
-        self.r.move_var_to_stack(r.uops[u])
-        kernel.extend(self.r.flush_kernel())
     for i,u in enumerate(uops):
       self.r.cur_step = i
       if DEBUG.value >= 6:
@@ -1089,7 +1097,18 @@ def render(self, uops:List[UOp]) -> str:
           print(self.r.uops[src])
       r.free_expired(i)
       if u.op is Ops.DEFINE_GLOBAL:
-        pass
+        var = r.uops[u]
+        if Arch.arm:
+          reg = IReg(u.arg)
+        else:
+          reg = IReg(x86_params[u.arg])
+        pool = r.pools[IReg]
+        pool.pop(pool.index(reg))
+        pool.acquire_reg(reg, var)
+        var.reg = reg
+        r.move_var_to_stack(var)
+        kernel.extend(r.flush_kernel())
+          
       elif u.op is Ops.SINK:
         if u.arg is not None: name = u.arg.function_name
       else:

From e76e7213b914e911ef0eb85b02fbc3c692d65350 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 19:10:25 +0800
Subject: [PATCH 140/188] allocator pool cont'd

---
 tinygrad/renderer/asm.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index e470f724554c1..a1f9873f81adc 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -312,7 +312,6 @@ def move_var_to_stack(self, v: Variable):
     assert reg is not None
     self._spill(reg)
     v.reg = None
-    self.pools[type(reg)].release_reg(reg, v)
 
   def assign(self, _key: UOp,
              reg_type: type[RegBase],

From 71d4a6ee8c79bfaa936f053b61cbac902fa45b04 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 19:49:39 +0800
Subject: [PATCH 141/188] allocator pool cont'd

---
 tinygrad/renderer/asm.py | 50 +++++++++++++++++++++++++---------------
 1 file changed, 31 insertions(+), 19 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a1f9873f81adc..85fdb1afe7ca4 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -223,9 +223,11 @@ def __len__(self): return len(self._pool)
 
   def pop(self, i):
     reg = self._pool.pop(i)
+    print(f"\033[31m{reg} popped\033[0m")
     return reg
   
   def insert(self, i, v):
+    print(f"\033[32m{v} returned to pool\033[0m")
     self._pool.insert(i, v)
 
   def index(self, reg):
@@ -235,16 +237,26 @@ def __getitem__(self, i):
     return self._pool[i]
 
   def acquire_reg(self, reg: RegBase, var: Variable):
-    print(f"{var} acquired {reg}")
+    print(f"\033[33m{reg} acquired by {var} {oneline_uop(var.uop)}\033[0m")
     self._acquired[reg].add(var)
   def release_reg(self, reg: RegBase, var: Variable):
-    print(f"releasing {var} of {reg}")
+    print(f"\033[34m{reg} released from {var} {oneline_uop(var.uop)}\033[0m")
     acquired = self._acquired[reg]
     #if var not in acquired: raise Exception(f"Not yet acquired: {var=} {reg=} {acquired=}")
     self._acquired[reg].discard(var)
     if len(self._acquired[reg]) == 0:
       del self._acquired[reg]
 
+  def bookkeeping(self):
+    return
+    for reg, vars in self._acquired.items():
+      for var in vars:
+        if var.reg != reg:
+          print(f"{var=} {reg=}, {self._pool}")
+          for reg, vars in self._acquired.items():
+            print(f"\t{reg}: {vars}")
+          raise Exception("Inconsistent var.reg: {var.reg} and acquired record: {reg}")
+
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int):
     self.pools: dict[type[RegBase], AllocatorPool] = {
@@ -259,6 +271,10 @@ def __init__(self, num_ireg: int, num_freg: int):
     self.kernel: list[str] = []
     self.tracked_regs: list[RegBase] = []
 
+  def bookkeeping(self):
+    for pool in self.pools.values():
+      pool.bookkeeping()
+
   def flush_kernel(self) -> list[str]:
     ret = self.kernel
     self.kernel = []
@@ -298,6 +314,9 @@ def share(self, dst: UOp, src: UOp):
     reg = src_var.reg
     assert reg, f"Source UOp must already been assigned to register {src} {reg=}"
     dst_var.reg = reg
+    pool = self.pools[type(reg)]
+    pool.acquire_reg(reg, dst_var)
+    
 
   def return_reg(self, regs: list[RegBase]):
     for reg in regs:
@@ -308,9 +327,9 @@ def return_reg(self, regs: list[RegBase]):
   def move_var_to_stack(self, v: Variable):
     reg = v.reg
     assert reg
-    self.return_reg([reg])
     assert reg is not None
     self._spill(reg)
+    self.return_reg([reg])
     v.reg = None
 
   def assign(self, _key: UOp,
@@ -324,11 +343,11 @@ def assign(self, _key: UOp,
       return reg
     else:
       reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
-      self.pools[reg_type].acquire_reg(reg, var)
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
     if reserve: self.reserved[reg] = 1
     var.reg = reg
+    self.pools[reg_type].acquire_reg(reg, var)
     return reg
   def assign_i8(self, _key: UOp, excludes: list[RegBase]=[], reserve: bool = False):
     return self.assign(_key, IReg, excludes, reserve).render8()
@@ -344,10 +363,10 @@ def assign_reg(self, reg: RegBase, _key: UOp, reserve: bool=False) -> None:
     uop = _key
     var = self.uops[uop]
     self.alloc_reg(reg)
-    self.pools[type(reg)].acquire_reg(reg, var)
     if var.reg is not None:
       self.kernel.extend(var.copy(reg))
     var.reg = reg
+    self.pools[type(reg)].acquire_reg(reg, var)
 
   def alloc_reg(self, reg: RegBase) -> None:
     pool = self.pools[type(reg)]
@@ -372,8 +391,8 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
       var = self.uops[uop]
       if var.stack is not None:
         self.kernel.extend(var.load(reg))
-      var.reg = reg
       regs[i] = reg
+      var.reg = reg
       self.pools[reg_type].acquire_reg(reg, var)
     for reg in regs: assert reg is not None
     regs2 = cast(list[RegBase], regs)
@@ -787,10 +806,8 @@ def idiv(ctx, x):
     vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
     mov2 = []
     if len(vars_holding_eax) >= 1:
-      var = vars_holding_eax[0]
       ctx.r._spill(IReg(0))
     if len(vars_holding_edx) >= 1:
-      var = vars_holding_edx[0]
       ctx.r._spill(IReg(2))
     _dividend, _divisor, _dst = ctx.r.assign_multiple(
       [dividend, divisor, x],
@@ -1053,16 +1070,6 @@ def render(self, uops:List[UOp]) -> str:
     var_intervals: dict[UOp, Variable] = OrderedDict()
     for i, u in enumerate(uops):
       var = Variable(u, i, -1)
-      if False and u.op is Ops.DEFINE_GLOBAL:
-        if Arch.arm:
-          var.reg = r.pools[IReg].pop(0)
-        else:
-          reg_num = x86_params[u.arg]
-          reg = IReg(reg_num)
-          pool = r.pools[IReg]
-          reg_idx = r.pools[IReg].index(IReg(reg_num))
-          assert reg_idx > -1
-          var.reg = r.pools[IReg].pop(reg_idx)
       var_intervals[u] = var
     for i, u in enumerate(uops):
       for src in u.src:
@@ -1085,9 +1092,12 @@ def render(self, uops:List[UOp]) -> str:
         print(i, v, oneline_uop(u))
     if Arch.x86:
       r.blocked.append(IReg(5))
-
+    
+    r.bookkeeping()
     for i,u in enumerate(uops):
       self.r.cur_step = i
+      print("=================================")
+      print(i, r.uops[u], u)
       if DEBUG.value >= 6:
         print("=================================")
         print(i, r.uops[u], u)
@@ -1122,6 +1132,8 @@ def render(self, uops:List[UOp]) -> str:
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
         kernel.extend(l)
+      r.bookkeeping()
+
     if Arch.x86:
       stack_alloc = [f"sub rsp, {r.stack_size}"]
     else:

From a84ab8311af32d396d8a7ac30dafdfa1fb7fd178 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 19:51:46 +0800
Subject: [PATCH 142/188] var.load only render code

---
 tinygrad/renderer/asm.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 85fdb1afe7ca4..97d750d3c1f75 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -162,7 +162,7 @@ def store(self, dst: str="") -> list[str]:
       return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
 
   def load(self, reg: RegBase, src: str="") -> list[str]:
-    self.reg = reg
+    #self.reg = reg
     assert self.stack is not None
     if Arch.arm:
       sp = "x29"
@@ -345,6 +345,7 @@ def assign(self, _key: UOp,
       reg = self.alloc_multiple(1, excludes=excludes, reg_type=reg_type)[0]
     if var.stack is not None:
       self.kernel.extend(var.load(reg))
+      var.reg = reg
     if reserve: self.reserved[reg] = 1
     var.reg = reg
     self.pools[reg_type].acquire_reg(reg, var)
@@ -391,6 +392,7 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
       var = self.uops[uop]
       if var.stack is not None:
         self.kernel.extend(var.load(reg))
+        var.reg = reg
       regs[i] = reg
       var.reg = reg
       self.pools[reg_type].acquire_reg(reg, var)
@@ -815,9 +817,11 @@ def idiv(ctx, x):
     if len(vars_holding_eax) >= 1:
       var = vars_holding_eax[0]
       mov2.extend(var.load(IReg(0)))
+      var.reg = IReg(0)
     if len(vars_holding_edx) >= 1:
       var = vars_holding_edx[0]
       mov2.extend(var.load(IReg(2)))
+      var.reg = IReg(2)
     ret = [
       f"mov rax, {_dividend.render64()}",
       "cdq",

From adf466020f32759e40c6a7dfc3a99b8ca369ef4d Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 20:15:02 +0800
Subject: [PATCH 143/188] ldr and str as function helper

---
 tinygrad/renderer/asm.py | 76 +++++++++++++++++-----------------------
 1 file changed, 32 insertions(+), 44 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 97d750d3c1f75..f25711bf99e8e 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -88,6 +88,36 @@ def render(self, itemsize: int):
     raise Exception(f"Either 4 or 8 bytes for register, received {itemsize}")
 
 def oneline_uop(u: UOp): return repr(u).split('\n')[0]
+
+def move_reg_mem(op: Union[Literal["str"], Literal["ldr"]],
+                 reg: RegBase, stack: int, size: int):
+  if Arch.arm:
+    sp = "x29"
+    sub = []
+    add = []
+    while stack > 255:
+      sub.append(f"sub x29, x29, #255")
+      add.insert(0, f"add x29, x29, #255")
+      stack -= 255
+    assert stack <=255
+    op = "str" if op == "str" else "ldr"
+    return [
+      *sub,
+      f"{op} {reg.render64()}, [{sp}, #-{stack}]",
+      *add,
+    ]
+  else:
+    if type(reg) is IReg:
+      _op = "mov"
+    else:
+      _op = "movss" if size == 4 else "movsd"
+
+    if op == "str":
+      return [f"{_op} [rbp - {stack}], {reg.render64()}"]
+    else:
+      return [f"{_op} {reg.render64()}, [rbp - {stack}]"]
+
+
 class Variable:
   def __init__(self, uop: UOp, start: int, end: int):
     """
@@ -138,53 +168,11 @@ def __repr__(self):
   def store(self, dst: str="") -> list[str]:
     assert self.reg is not None
     assert self.stack is not None
-    note = f""
-    if Arch.arm:
-      sp = "x29"
-      stack = self.stack
-      sub = []
-      add = []
-      while stack > 255:
-        sub.append(f"sub x29, x29, #255")
-        add.insert(0, f"add x29, x29, #255")
-        stack -= 255
-      assert stack <=255
-      return [
-        *sub,
-        f"str {self.reg.render64()}, [{sp}, #-{stack}]",
-        *add,
-      ]
-    else:
-      if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
-        op = "mov"
-      else:
-        op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
-      return [f"{op} [rbp - {self.stack}], {self.reg.render64()}"]
+    return move_reg_mem("str", self.reg, self.stack, self.uop.dtype.itemsize)
 
   def load(self, reg: RegBase, src: str="") -> list[str]:
-    #self.reg = reg
     assert self.stack is not None
-    if Arch.arm:
-      sp = "x29"
-      stack = self.stack
-      sub = []
-      add = []
-      while stack > 255:
-        sub.append(f"sub x29, x29, #255")
-        add.insert(0, f"add x29, x29, #255")
-        stack -= 255
-      assert stack <=255
-      return [
-        *sub,
-        f"ldr {reg.render64()}, [{sp}, #-{stack}]",
-        *add,
-      ]
-    else:
-      if dtypes.is_int(self.uop.dtype) or dtypes.is_bool(self.uop.dtype) or hasattr(self.uop.dtype, "_base"):
-        op = "mov"
-      else:
-        op = "movss" if self.uop.dtype.itemsize == 4 else "movsd"
-      return [f"{op} {reg.render64()}, [rbp - {self.stack}]"]
+    return move_reg_mem("ldr", reg, self.stack, self.uop.dtype.itemsize)
 
   def copy(self, dst: RegBase) -> list[str]:
     assert self.reg is not None

From 2471ed683adf7277faef724c13bbf7b280a00423 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 20:46:01 +0800
Subject: [PATCH 144/188] release step is now consistent, idiv is very ugly

---
 tinygrad/renderer/asm.py | 46 +++++++++++++++++++++++++++++-----------
 1 file changed, 34 insertions(+), 12 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index f25711bf99e8e..63b92a6a8fb58 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -228,15 +228,15 @@ def acquire_reg(self, reg: RegBase, var: Variable):
     print(f"\033[33m{reg} acquired by {var} {oneline_uop(var.uop)}\033[0m")
     self._acquired[reg].add(var)
   def release_reg(self, reg: RegBase, var: Variable):
+    assert reg is not None
     print(f"\033[34m{reg} released from {var} {oneline_uop(var.uop)}\033[0m")
     acquired = self._acquired[reg]
-    #if var not in acquired: raise Exception(f"Not yet acquired: {var=} {reg=} {acquired=}")
+    if var not in acquired: raise Exception(f"Not yet acquired: {var=} {reg=} {acquired=}")
     self._acquired[reg].discard(var)
     if len(self._acquired[reg]) == 0:
       del self._acquired[reg]
 
   def bookkeeping(self):
-    return
     for reg, vars in self._acquired.items():
       for var in vars:
         if var.reg != reg:
@@ -793,23 +793,45 @@ def idiv(ctx, x):
   dividend, divisor = x.src
   if Arch.x86:
     vars_holding_eax = ctx.r.find_vars_holding_reg(IReg(0))
+    for var in vars_holding_eax:
+      if var.stack is None:
+        ctx.r.stack_size += (var.reg.size // 8)
+        var.stack = ctx.r.stack_size
+      ctx.r.kernel.extend(var.store())
+      var.reg = None
+      ctx.r.pools[IReg].release_reg(IReg(0), var)
     vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
+    for var in vars_holding_edx:
+      if var.stack is None:
+        ctx.r.stack_size += (var.reg.size // 8)
+        var.stack = ctx.r.stack_size
+      ctx.r.kernel.extend(var.store())
+      var.reg = None
+      ctx.r.pools[IReg].release_reg(IReg(2), var)
     mov2 = []
-    if len(vars_holding_eax) >= 1:
-      ctx.r._spill(IReg(0))
-    if len(vars_holding_edx) >= 1:
-      ctx.r._spill(IReg(2))
     _dividend, _divisor, _dst = ctx.r.assign_multiple(
       [dividend, divisor, x],
       reg_type=IReg, excludes=[IReg(0), IReg(2)])
     if len(vars_holding_eax) >= 1:
-      var = vars_holding_eax[0]
-      mov2.extend(var.load(IReg(0)))
-      var.reg = IReg(0)
+      var0 = vars_holding_eax[0]
+      mov2.extend([
+        *move_reg_mem("ldr", IReg(0), var0.stack, 8)
+      ])
+      for var in vars_holding_eax:
+        if var.reg is not None:
+          ctx.r.pools[IReg].release_reg(var.reg, var)
+        var.reg = IReg(0)
+        ctx.r.pools[IReg].acquire_reg(IReg(0), var)
     if len(vars_holding_edx) >= 1:
-      var = vars_holding_edx[0]
-      mov2.extend(var.load(IReg(2)))
-      var.reg = IReg(2)
+      var0 = vars_holding_edx[0]
+      mov2.extend([
+        *move_reg_mem("ldr", IReg(2), var0.stack, 8)
+      ])
+      for var in vars_holding_edx:
+        if var.reg is not None:
+          ctx.r.pools[IReg].release_reg(var.reg, var)
+        var.reg = IReg(2)
+        ctx.r.pools[IReg].acquire_reg(IReg(2), var)
     ret = [
       f"mov rax, {_dividend.render64()}",
       "cdq",

From 66feb857c1ecd0a5832c7b2a7adc76ccb49fe658 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 20:57:31 +0800
Subject: [PATCH 145/188] pool and acquired sum is now consistent, idiv is very
 ugly

---
 tinygrad/renderer/asm.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 63b92a6a8fb58..dd1f9bba006db 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -237,6 +237,11 @@ def release_reg(self, reg: RegBase, var: Variable):
       del self._acquired[reg]
 
   def bookkeeping(self):
+    if len(self._pool) + len(self._acquired) != self.num:
+      print(f"{self._pool=}")
+      for reg, vars in self._acquired.items():
+        print(f"\t{reg}: {vars}")
+      raise Exception(f"Inconsistent pool + acquired and total reg number")
     for reg, vars in self._acquired.items():
       for var in vars:
         if var.reg != reg:
@@ -820,6 +825,8 @@ def idiv(ctx, x):
       for var in vars_holding_eax:
         if var.reg is not None:
           ctx.r.pools[IReg].release_reg(var.reg, var)
+          if var.reg not in ctx.r.pools[IReg]._acquired:
+            ctx.r.pools[IReg].insert(0, var.reg)
         var.reg = IReg(0)
         ctx.r.pools[IReg].acquire_reg(IReg(0), var)
     if len(vars_holding_edx) >= 1:
@@ -830,6 +837,8 @@ def idiv(ctx, x):
       for var in vars_holding_edx:
         if var.reg is not None:
           ctx.r.pools[IReg].release_reg(var.reg, var)
+          if var.reg not in ctx.r.pools[IReg]._acquired:
+            ctx.r.pools[IReg].insert(0, var.reg)
         var.reg = IReg(2)
         ctx.r.pools[IReg].acquire_reg(IReg(2), var)
     ret = [

From c2568419990a9c49f3c292f9d4c26357287fd251 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 21:03:06 +0800
Subject: [PATCH 146/188] mod works

---
 test/test_ops_2.py       | 3 +--
 tinygrad/renderer/asm.py | 9 +++++++--
 2 files changed, 8 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0d60ec4716764..0aca3af39c189 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -612,7 +612,6 @@ def test_all_axis(self):
     helper_test_op([(3,4,5,6)], lambda x: x.all(axis=(1,2)), forward_only=True)
 
 
-  @skipU("MANUAL")
   def test_broadcast_full(self):
     for torch_op, tinygrad_op in [(torch.add, Tensor.add), (torch.sub, Tensor.sub), (torch.mul, Tensor.mul),
                                   (torch.div, Tensor.div), (torch.pow, Tensor.pow)]:
@@ -623,7 +622,7 @@ def test_broadcast_full(self):
             helper_test_op(shapes, torch_op, tinygrad_op)
           else:
             helper_test_op(shapes, torch_op, tinygrad_op, low=0, high=3)
-  @skipU("MANUAL")
+
   def test_broadcast_pow(self):
     tinygrad_op = Tensor.pow
     torch_op = torch.pow
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index dd1f9bba006db..c2482b4797f3c 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -841,11 +841,16 @@ def idiv(ctx, x):
             ctx.r.pools[IReg].insert(0, var.reg)
         var.reg = IReg(2)
         ctx.r.pools[IReg].acquire_reg(IReg(2), var)
+    if x.op is Ops.IDIV:
+      result_reg = "rax"
+    elif x.op is Ops.MOD:
+      result_reg = "rdx"
+    else: raise Exception(f"Invalid op {x.op}")
     ret = [
       f"mov rax, {_dividend.render64()}",
       "cdq",
       f"idiv {_divisor.render32()}",
-      f"mov {_dst}, rax",
+      f"mov {_dst}, {result_reg}",
       *mov2,
     ]
     return ret
@@ -927,7 +932,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
-  (UPat(Ops.IDIV, name="x"), idiv),
+  (UPat((Ops.IDIV, Ops.MOD), name="x"), idiv),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),

From f73f0766179ec1eb7f003c300587b5f47ace45de Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 21:12:06 +0800
Subject: [PATCH 147/188] split arm mod into idiv and alu

---
 tinygrad/renderer/asm.py | 149 ++++++++++++++++++++++-----------------
 1 file changed, 84 insertions(+), 65 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index c2482b4797f3c..179bb061031a4 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -794,73 +794,74 @@ def _where(ctx, x):
       f".end_{ctx.r.cur_step}:",
     ]
 
-def idiv(ctx, x):
+def x86_idiv(ctx, x):
   dividend, divisor = x.src
-  if Arch.x86:
-    vars_holding_eax = ctx.r.find_vars_holding_reg(IReg(0))
+  vars_holding_eax = ctx.r.find_vars_holding_reg(IReg(0))
+  for var in vars_holding_eax:
+    if var.stack is None:
+      ctx.r.stack_size += (var.reg.size // 8)
+      var.stack = ctx.r.stack_size
+    ctx.r.kernel.extend(var.store())
+    var.reg = None
+    ctx.r.pools[IReg].release_reg(IReg(0), var)
+  vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
+  for var in vars_holding_edx:
+    if var.stack is None:
+      ctx.r.stack_size += (var.reg.size // 8)
+      var.stack = ctx.r.stack_size
+    ctx.r.kernel.extend(var.store())
+    var.reg = None
+    ctx.r.pools[IReg].release_reg(IReg(2), var)
+  mov2 = []
+  _dividend, _divisor, _dst = ctx.r.assign_multiple(
+    [dividend, divisor, x],
+    reg_type=IReg, excludes=[IReg(0), IReg(2)])
+  if len(vars_holding_eax) >= 1:
+    var0 = vars_holding_eax[0]
+    mov2.extend([
+      *move_reg_mem("ldr", IReg(0), var0.stack, 8)
+    ])
     for var in vars_holding_eax:
-      if var.stack is None:
-        ctx.r.stack_size += (var.reg.size // 8)
-        var.stack = ctx.r.stack_size
-      ctx.r.kernel.extend(var.store())
-      var.reg = None
-      ctx.r.pools[IReg].release_reg(IReg(0), var)
-    vars_holding_edx = ctx.r.find_vars_holding_reg(IReg(2))
+      if var.reg is not None:
+        ctx.r.pools[IReg].release_reg(var.reg, var)
+        if var.reg not in ctx.r.pools[IReg]._acquired:
+          ctx.r.pools[IReg].insert(0, var.reg)
+      var.reg = IReg(0)
+      ctx.r.pools[IReg].acquire_reg(IReg(0), var)
+  if len(vars_holding_edx) >= 1:
+    var0 = vars_holding_edx[0]
+    mov2.extend([
+      *move_reg_mem("ldr", IReg(2), var0.stack, 8)
+    ])
     for var in vars_holding_edx:
-      if var.stack is None:
-        ctx.r.stack_size += (var.reg.size // 8)
-        var.stack = ctx.r.stack_size
-      ctx.r.kernel.extend(var.store())
-      var.reg = None
-      ctx.r.pools[IReg].release_reg(IReg(2), var)
-    mov2 = []
-    _dividend, _divisor, _dst = ctx.r.assign_multiple(
-      [dividend, divisor, x],
-      reg_type=IReg, excludes=[IReg(0), IReg(2)])
-    if len(vars_holding_eax) >= 1:
-      var0 = vars_holding_eax[0]
-      mov2.extend([
-        *move_reg_mem("ldr", IReg(0), var0.stack, 8)
-      ])
-      for var in vars_holding_eax:
-        if var.reg is not None:
-          ctx.r.pools[IReg].release_reg(var.reg, var)
-          if var.reg not in ctx.r.pools[IReg]._acquired:
-            ctx.r.pools[IReg].insert(0, var.reg)
-        var.reg = IReg(0)
-        ctx.r.pools[IReg].acquire_reg(IReg(0), var)
-    if len(vars_holding_edx) >= 1:
-      var0 = vars_holding_edx[0]
-      mov2.extend([
-        *move_reg_mem("ldr", IReg(2), var0.stack, 8)
-      ])
-      for var in vars_holding_edx:
-        if var.reg is not None:
-          ctx.r.pools[IReg].release_reg(var.reg, var)
-          if var.reg not in ctx.r.pools[IReg]._acquired:
-            ctx.r.pools[IReg].insert(0, var.reg)
-        var.reg = IReg(2)
-        ctx.r.pools[IReg].acquire_reg(IReg(2), var)
-    if x.op is Ops.IDIV:
-      result_reg = "rax"
-    elif x.op is Ops.MOD:
-      result_reg = "rdx"
-    else: raise Exception(f"Invalid op {x.op}")
-    ret = [
-      f"mov rax, {_dividend.render64()}",
-      "cdq",
-      f"idiv {_divisor.render32()}",
-      f"mov {_dst}, {result_reg}",
-      *mov2,
-    ]
-    return ret
-  else:
-    _dividend, _divisor, _quotient = ctx.r.assign_multiple(
-      [dividend, divisor, x], IReg)
-    ret = [
-      f"sdiv {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
-    ]
-    return ret
+      if var.reg is not None:
+        ctx.r.pools[IReg].release_reg(var.reg, var)
+        if var.reg not in ctx.r.pools[IReg]._acquired:
+          ctx.r.pools[IReg].insert(0, var.reg)
+      var.reg = IReg(2)
+      ctx.r.pools[IReg].acquire_reg(IReg(2), var)
+  if x.op is Ops.IDIV:
+    result_reg = "rax"
+  elif x.op is Ops.MOD:
+    result_reg = "rdx"
+  else: raise Exception(f"Invalid op {x.op}")
+  ret = [
+    f"mov rax, {_dividend.render64()}",
+    "cdq",
+    f"idiv {_divisor.render32()}",
+    f"mov {_dst}, {result_reg}",
+    *mov2,
+  ]
+  return ret
+
+def arm_idiv(ctx, x):
+  dividend, divisor = x.src
+  _dividend, _divisor, _quotient = ctx.r.assign_multiple(
+    [dividend, divisor, x], IReg)
+  ret = [
+    f"sdiv {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
+  ]
+  return ret
 
 def max_int(ctx, x):
   src1, src2 = x.src
@@ -932,7 +933,6 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
-  (UPat((Ops.IDIV, Ops.MOD), name="x"), idiv),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
@@ -944,6 +944,7 @@ def gated_load(ctx, x, bidx, alt, gate):
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 ])
 x86_rewrite = PatternMatcher([
+  (UPat((Ops.IDIV, Ops.MOD), name="x"), x86_idiv),
   (UPat((Ops.CMPNE, Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
                                   UPat(name="b"))),
    cmp_int_x86),
@@ -1004,6 +1005,7 @@ def gated_load(ctx, x, bidx, alt, gate):
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([
+  (UPat(Ops.IDIV, name="x"), arm_idiv),
   (UPat((Ops.CMPLT, Ops.CMPNE), name="x", src=(UPat(name="a"),
                                   UPat(name="b"))),
    cmp_arm),
@@ -1061,6 +1063,23 @@ def gated_load(ctx, x, bidx, alt, gate):
   #(UPat(Ops.ASSIGN, name="assign", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat((Ops.ADD,), name="add"))), lambda ctx, assign, acc, add: add),
 ])
 
+if Arch.arm:
+  extra_matcher += PatternMatcher([
+    (UPat(Ops.MOD, name="x", src=(UPat(name="src1"), UPat(name="src2"))),
+      lambda ctx, x, src1, src2:
+      UOp(Ops.SUB, dtype=x.dtype, src=(
+        src1,
+        UOp(Ops.MUL, dtype=x.dtype, src=(
+          UOp(Ops.IDIV, dtype=x.dtype, src=(
+            src1,
+            src2,
+          )),
+          src2,
+       ),
+     ))),
+     )
+  ])
+
 class AsmRenderer(Renderer):
   supports_float4 = False
   has_local = False

From 5df99201993f918209ae50184da4f89a108909aa Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Fri, 1 Aug 2025 21:16:15 +0800
Subject: [PATCH 148/188] ops.sub in arm

---
 tinygrad/renderer/asm.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 179bb061031a4..5fc4852f0ce05 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -489,6 +489,8 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.ADD, ArchType.X86, FReg, 64): "addsd",
   (Ops.ADD, ArchType.ARM, IReg): "add",
   (Ops.ADD, ArchType.ARM, FReg): "fadd",
+  (Ops.SUB, ArchType.ARM, IReg): "sub",
+  (Ops.SUB, ArchType.ARM, FReg): "fsub",
   (Ops.MUL, ArchType.X86, IReg): "imul",
   (Ops.MUL, ArchType.X86, FReg, 32): "mulss",
   (Ops.MUL, ArchType.X86, FReg, 64): "mulsd",

From 1dacee63c0cd4146802d8629cfb8d676f8b8e3c7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 16:16:33 +0800
Subject: [PATCH 149/188] cast bool to float

---
 test/test_ops_2.py       |  8 ++++++++
 tinygrad/renderer/asm.py | 14 +++++++-------
 2 files changed, 15 insertions(+), 7 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0aca3af39c189..bbfe4d6170123 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -631,6 +631,14 @@ def test_broadcast_pow(self):
     shapes = ((5, 13, s, 16),  (5, 1, s, 1))
     helper_test_op(shapes, torch_op, tinygrad_op, low=0, high=3)
 
+  def test_cast(self):
+    helper_test_op([(3, 3)], lambda x: x.float())
+    helper_test_op(None, lambda x: x.float(), vals=[[0, 1, 2, 3]], forward_only=True)
+    helper_test_op(None, lambda x: x.float(), vals=[[True, False]], forward_only=True)
+
+  @skipU("MANUAL")
+  def test_cast2(self):
+    pass
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 5fc4852f0ce05..9d9ff1e40220f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -211,11 +211,11 @@ def __len__(self): return len(self._pool)
 
   def pop(self, i):
     reg = self._pool.pop(i)
-    print(f"\033[31m{reg} popped\033[0m")
+    #print(f"\033[31m{reg} popped\033[0m")
     return reg
   
   def insert(self, i, v):
-    print(f"\033[32m{v} returned to pool\033[0m")
+    #print(f"\033[32m{v} returned to pool\033[0m")
     self._pool.insert(i, v)
 
   def index(self, reg):
@@ -225,11 +225,11 @@ def __getitem__(self, i):
     return self._pool[i]
 
   def acquire_reg(self, reg: RegBase, var: Variable):
-    print(f"\033[33m{reg} acquired by {var} {oneline_uop(var.uop)}\033[0m")
+    #print(f"\033[33m{reg} acquired by {var} {oneline_uop(var.uop)}\033[0m")
     self._acquired[reg].add(var)
   def release_reg(self, reg: RegBase, var: Variable):
     assert reg is not None
-    print(f"\033[34m{reg} released from {var} {oneline_uop(var.uop)}\033[0m")
+    #print(f"\033[34m{reg} released from {var} {oneline_uop(var.uop)}\033[0m")
     acquired = self._acquired[reg]
     if var not in acquired: raise Exception(f"Not yet acquired: {var=} {reg=} {acquired=}")
     self._acquired[reg].discard(var)
@@ -1000,7 +1000,7 @@ def gated_load(ctx, x, bidx, alt, gate):
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
     lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.bool)),)),
     lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
@@ -1057,6 +1057,8 @@ def gated_load(ctx, x, bidx, alt, gate):
     lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
     lambda ctx, x, a: [f"scvtf {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.bool),)),
+    lambda ctx, x, a: [f"ucvtf {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"fcvtzs {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 ]) + complex_rewrites
@@ -1145,8 +1147,6 @@ def render(self, uops:List[UOp]) -> str:
     r.bookkeeping()
     for i,u in enumerate(uops):
       self.r.cur_step = i
-      print("=================================")
-      print(i, r.uops[u], u)
       if DEBUG.value >= 6:
         print("=================================")
         print(i, r.uops[u], u)

From 0862319c86b14ccb1caa043a50e87815b251c75a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 16:18:48 +0800
Subject: [PATCH 150/188] cast bool to float cont'd

---
 test/test_ops_2.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index bbfe4d6170123..8770e807b8f7b 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -635,6 +635,8 @@ def test_cast(self):
     helper_test_op([(3, 3)], lambda x: x.float())
     helper_test_op(None, lambda x: x.float(), vals=[[0, 1, 2, 3]], forward_only=True)
     helper_test_op(None, lambda x: x.float(), vals=[[True, False]], forward_only=True)
+    helper_test_op([(3, 3)], lambda x: x.int(), forward_only=True)
+    helper_test_op([(3, 3)], lambda x: x.bool(), forward_only=True)
 
   @skipU("MANUAL")
   def test_cast2(self):

From 56ae153b5c3f94d2f1d47993735af7868e42e508 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 16:41:39 +0800
Subject: [PATCH 151/188] cast op

---
 test/test_ops_2.py       | 19 +++++++++++++++++++
 tinygrad/renderer/asm.py | 22 ++++++++++++++++------
 2 files changed, 35 insertions(+), 6 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 8770e807b8f7b..3072f24374b7f 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -637,9 +637,28 @@ def test_cast(self):
     helper_test_op(None, lambda x: x.float(), vals=[[True, False]], forward_only=True)
     helper_test_op([(3, 3)], lambda x: x.int(), forward_only=True)
     helper_test_op([(3, 3)], lambda x: x.bool(), forward_only=True)
+  def test_all(self):
+    helper_test_op([(3,4,5,6)], lambda x: x.all(), forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[True, True]], forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[True, False]], forward_only=True)
+    helper_test_op(None, lambda x: x.all(), vals=[[False, False]], forward_only=True)
+    helper_test_op([()], lambda x: x.all(), forward_only=True)
+
+  @skipU("MANUAL")
+  def test_cmp_lt_backwards(self):
+    tt = Tensor.randn(4, requires_grad=True)
+    (tt*(tt < 0)).sum().backward()
+    t = torch.tensor(tt.numpy(), requires_grad=True)
+    (t*(t < 0)).sum().backward()
+    np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
 
   @skipU("MANUAL")
   def test_cast2(self):
+    tt = Tensor.randn(4, requires_grad=True)
+    (tt*(tt < 0)).sum().backward()
+    t = torch.tensor(tt.numpy(), requires_grad=True)
+    (t*(t < 0)).sum().backward()
+    np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
     pass
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9d9ff1e40220f..4dfcb157e0122 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -248,7 +248,7 @@ def bookkeeping(self):
           print(f"{var=} {reg=}, {self._pool}")
           for reg, vars in self._acquired.items():
             print(f"\t{reg}: {vars}")
-          raise Exception("Inconsistent var.reg: {var.reg} and acquired record: {reg}")
+          raise Exception(f"Inconsistent var.reg: {var.reg} and acquired record: {reg}")
 
 class Allocator:
   def __init__(self, num_ireg: int, num_freg: int):
@@ -957,18 +957,22 @@ def gated_load(ctx, x, bidx, alt, gate):
                                   UPat(name="b"))),
    cmpne_float_x86),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.int32, dtypes.uint32)), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.int64, dtypes.uint64)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
+
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i32(src)}"]),
+
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i64(src)}"]),
+
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
       lambda ctx, x, addr, src: [f"movss [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f32(src)}"]),
+
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
 
@@ -985,19 +989,25 @@ def gated_load(ctx, x, bidx, alt, gate):
 
   (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
+
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
+
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x)}, [{ctx.r.assign_i64(src)}]"]),
+
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float32, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
+
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movsd {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
 
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
-  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
     lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
   (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.bool)),)),

From db8d4dcd26c8ffbbb3ab55921385dd6f383be105 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 17:39:48 +0800
Subject: [PATCH 152/188] cast op

---
 test/test_ops_2.py       |  2 +-
 tinygrad/renderer/asm.py | 39 ++++++++++++++++++++++++++++++++-------
 2 files changed, 33 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 3072f24374b7f..bc7f843ef0cf8 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -653,7 +653,7 @@ def test_cmp_lt_backwards(self):
     np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
 
   @skipU("MANUAL")
-  def test_cast2(self):
+  def test_manual(self):
     tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt < 0)).sum().backward()
     t = torch.tensor(tt.numpy(), requires_grad=True)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4dfcb157e0122..081a3321d6bf9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -203,6 +203,14 @@ def __init__(self, reg_type: type[RegBase], num: int):
     self._pool: list[RegBase] = [reg_type(i) for i in range(num)]
     self._acquired: dict[RegBase, set[Variable]] = defaultdict(set)
 
+  def __repr__(self):
+    l = []
+    l.append(f"Pool: {self._pool}")
+    l.append(f"Acquired:")
+    for reg, vars in self._acquired.items():
+      l.append(f"\t{reg}: {vars}")
+    return "\n".join(l)
+
   @property
   def pool(self):
     return self._pool
@@ -246,8 +254,8 @@ def bookkeeping(self):
       for var in vars:
         if var.reg != reg:
           print(f"{var=} {reg=}, {self._pool}")
-          for reg, vars in self._acquired.items():
-            print(f"\t{reg}: {vars}")
+          for _reg, vars in self._acquired.items():
+            print(f"\t{_reg}: {vars}")
           raise Exception(f"Inconsistent var.reg: {var.reg} and acquired record: {reg}")
 
 class Allocator:
@@ -388,8 +396,11 @@ def assign_multiple(self, uops: List[UOp], reg_type: type[RegBase], excludes: li
         var.reg = reg
       regs[i] = reg
       var.reg = reg
+    for reg, uop_i in zip(alloc_regs, need_alloc):
+      var = self.uops[uops[uop_i]]
       self.pools[reg_type].acquire_reg(reg, var)
-    for reg in regs: assert reg is not None
+    for reg in regs:
+      assert reg is not None
     regs2 = cast(list[RegBase], regs)
     return regs2
 
@@ -692,7 +703,10 @@ def cmp_int_x86(ctx, x, a, b):
 
 def cmpne_float_x86(ctx, x, a, b):
   dst = ctx.r.assign(x, IReg)
-  src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+  if a == b:
+    src_a = src_b = ctx.r.assign(a, FReg)
+  else:
+    src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
   temp_reg = ctx.r.alloc(FReg, [src_a, src_b, dst])
   temp_reg_2 = ctx.r.alloc(IReg, [src_a, src_b, dst])
   ctx.r.return_reg([temp_reg, temp_reg_2])
@@ -1002,18 +1016,29 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movsd {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
 
-  (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+  (UPat(Ops.BITCAST, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
-    lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
+    lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.bool)),)),
     lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=dtypes.int64, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i64(x)}, {ctx.r.assign_f32(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=dtypes.uint64, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"VCVTTSS2USI {ctx.r.assign_i64(x)}, {ctx.r.assign_f32(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float, src=(UPat(name="a", dtype=dtypes.uint64),)),
+    lambda ctx, x, a: [f"vcvtusi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_f64(x)}, {ctx.r.assign_i64(a)}"]),
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From 40bf4d0c7d911971962a0dfc7024a60be8da9803 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 18:08:13 +0800
Subject: [PATCH 153/188] print bytes before invoking program

---
 tinygrad/device.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/tinygrad/device.py b/tinygrad/device.py
index e32bfbf5aa00c..0aa5a7953e55f 100644
--- a/tinygrad/device.py
+++ b/tinygrad/device.py
@@ -319,6 +319,12 @@ def __init__(self, name:str, lib:bytes):
 
   def __call__(self, *bufs, vals=(), wait=False):
     args = list(bufs) + list(vals)
+    if p:=os.environ.get("SAVE_BYTES"):
+      for i, b in enumerate(bufs):
+        print(f"Data {i}:")
+        _bytes = bytes(b)
+        print(", ".join([f"0x{_b:02x}" for _b in _bytes]))
+        print()
     # NOTE: replace this by --target={host's triple}-elf in clang args once we only support macos sequoia and later.
     # Apple relaxes abi requirement for stack arguments to always be at least 8 byte aligned on arm64
     # https://developer.apple.com/documentation/xcode/writing-arm64-code-for-apple-platforms

From 857939062b54d2c248b74b68e4969bb2b78510ad Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 18:23:43 +0800
Subject: [PATCH 154/188] cast op on x86, need to now fix uint64 idiv

---
 tinygrad/renderer/asm.py | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 081a3321d6bf9..b47e834baabc7 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1025,20 +1025,18 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.bool)),)),
-    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
-    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.float64),)),
+    lambda ctx, x, a: [f"cvttsd2si {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f64(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.int64, src=(UPat(name="a", dtype=dtypes.float32),)),
-    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign_i64(x)}, {ctx.r.assign_f32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.int64, dtypes.uint32, dtypes.uint64, dtypes.bool)),)),
+    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.uint64, src=(UPat(name="a", dtype=dtypes.float32),)),
-    lambda ctx, x, a: [f"VCVTTSS2USI {ctx.r.assign_i64(x)}, {ctx.r.assign_f32(a)}"]),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.int64),)),
+    lambda ctx, x, a: [f"cvtsi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_i32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float, src=(UPat(name="a", dtype=dtypes.uint64),)),
-    lambda ctx, x, a: [f"vcvtusi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_f64(x)}, {ctx.r.assign_i64(a)}"]),
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From 616a1da440ba5fbb611083da4f2b9876f772932a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 18:34:44 +0800
Subject: [PATCH 155/188] uint64 division

---
 tinygrad/renderer/asm.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index b47e834baabc7..090baac4eb782 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -861,10 +861,11 @@ def x86_idiv(ctx, x):
   elif x.op is Ops.MOD:
     result_reg = "rdx"
   else: raise Exception(f"Invalid op {x.op}")
+  extend = "cdq" if x.dtype.itemsize == 4 else "cqo"
   ret = [
     f"mov rax, {_dividend.render64()}",
-    "cdq",
-    f"idiv {_divisor.render32()}",
+    extend,
+    f"idiv {_divisor.render(x.dtype.itemsize)}",
     f"mov {_dst}, {result_reg}",
     *mov2,
   ]

From dfbb01d7cf876765bb25c477e4b6117e6416c0f3 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 22:18:23 +0800
Subject: [PATCH 156/188] test cmplt backward

---
 test/test_ops_2.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index bc7f843ef0cf8..6322925b88b8d 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -644,7 +644,6 @@ def test_all(self):
     helper_test_op(None, lambda x: x.all(), vals=[[False, False]], forward_only=True)
     helper_test_op([()], lambda x: x.all(), forward_only=True)
 
-  @skipU("MANUAL")
   def test_cmp_lt_backwards(self):
     tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt < 0)).sum().backward()

From f6e4c5506c419b955f23de63e0394148d342c2e1 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 22:26:33 +0800
Subject: [PATCH 157/188] arm cast

---
 tinygrad/renderer/asm.py | 23 ++++++++++++++---------
 1 file changed, 14 insertions(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 090baac4eb782..1e295a35f3092 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1033,7 +1033,7 @@ def gated_load(ctx, x, bidx, alt, gate):
     lambda ctx, x, a: [f"cvttsd2si {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f64(a)}"]),
 
   (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.int64, dtypes.uint32, dtypes.uint64, dtypes.bool)),)),
-    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign(a, reg_type=IReg).render(a.dtype.itemsize)}"]),
 
   (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.int64),)),
     lambda ctx, x, a: [f"cvtsi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_i32(a)}"]),
@@ -1085,16 +1085,21 @@ def gated_load(ctx, x, bidx, alt, gate):
 
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"fmov {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
     lambda ctx, x, a: [f"fmov {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.int64),)),
-    lambda ctx, x, a: [ctx.r.share(x, a), []][-1]),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
-    lambda ctx, x, a: [f"scvtf {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.bool),)),
-    lambda ctx, x, a: [f"ucvtf {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
-  (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
-    lambda ctx, x, a: [f"fcvtzs {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
+    lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=(dtypes.float32, dtypes.float64)),)),
+    lambda ctx, x, a: [f"fcvtzs {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f32(a)}"]),
+
+  (UPat(Ops.CAST, name="x", dtype=(dtypes.float32, dtypes.float64),
+        src=(UPat(name="a", dtype=(dtypes.int32, dtypes.int64, dtypes.uint32, dtypes.uint64, dtypes.bool),))),
+    lambda ctx, x, a:
+   [f"scvtf {ctx.r.assign(x, reg_type=FReg).render(x.dtype.itemsize)}, {ctx.r.assign(a, reg_type=IReg).render(a.dtype.itemsize)}"]),
+
 ]) + complex_rewrites
 
 extra_matcher = PatternMatcher([

From 1911156e7e2156ebde787a8971f262251a32d07b Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 22:30:00 +0800
Subject: [PATCH 158/188] bool need to be i32 when converting

---
 tinygrad/renderer/asm.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 1e295a35f3092..2396b217a7dab 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1032,9 +1032,12 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.float64),)),
     lambda ctx, x, a: [f"cvttsd2si {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f64(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.int64, dtypes.uint32, dtypes.uint64, dtypes.bool)),)),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.int64, dtypes.uint32, dtypes.uint64)),)),
     lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign(a, reg_type=IReg).render(a.dtype.itemsize)}"]),
 
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.bool),)),
+    lambda ctx, x, a: [f"cvtsi2ss {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.int64),)),
     lambda ctx, x, a: [f"cvtsi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_i32(a)}"]),
 

From 212270ef09a7d5e50427dce221774cd9f6c42f79 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 22:49:33 +0800
Subject: [PATCH 159/188] arm use data section for uint

---
 tinygrad/renderer/asm.py | 26 +++++++++++++++++---------
 1 file changed, 17 insertions(+), 9 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 2396b217a7dab..0912fc537f718 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -579,14 +579,22 @@ def const(ctx, x):
   reg_str = reg.render(x.dtype.itemsize)
   label = f"const_{len(ctx.mem)}"
   if Arch.arm:
-    if x.dtype.itemsize == 4: data_type = ".single"
-    else: data_type = ".double"
+    if x.dtype == dtypes.int64 or x.dtype == dtypes.uint64:
+      data_type = ".quad"
+    elif x.dtype == dtypes.int32 or x.dtype == dtypes.uint32:
+      data_type = ".word"
+    elif x.dtype.itemsize == 4:
+      data_type = ".single"
+    else:
+      data_type = ".double"
     ctx.mem.append((label, f"{data_type} {x.arg}"))
     temp_reg = ctx.r.alloc(IReg, [reg])
     ctx.r.return_reg([temp_reg])
     return [f"adrp {temp_reg}, {label}",
       f"ldr {reg_str}, [{temp_reg}, #:lo12:{label}]"]
   else:
+    if dtypes.is_int(x.dtype):
+      raise Exception("Do not handle integer on x86 in the data section on x86")
     if x.dtype.itemsize == 4:
       data_type = ".float"
       op = "movss"
@@ -982,7 +990,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i32(src)}"]),
 
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int64, dtypes.uint64)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i64(src)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
@@ -1049,15 +1057,15 @@ def gated_load(ctx, x, bidx, alt, gate):
                                   UPat(name="b"))),
    cmp_arm),
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.int32), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.int64), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, #{x.arg}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.int32)), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.int64, dtypes.uint64, dtypes.uint32)), const),
   (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
       lambda ctx, x, addr, src: [f"strb {ctx.r.assign_i8(src)}, [{ctx.r.assign_i64(addr)}]"]),
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_i32(src)}, [{ctx.r.assign_i64(addr)}]"]),
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.int64))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int64, dtypes.uint64)))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_i64(src)}, [{ctx.r.assign_i64(addr)}]"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_f32(src)}, [{ctx.r.assign_i64(addr)}]"]),
@@ -1077,9 +1085,9 @@ def gated_load(ctx, x, bidx, alt, gate):
 
   (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldrb {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.int32, src=(UPat(name="src",),)),
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.int64, dtypes.uint64), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_i64(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float32, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),

From 88b65c5ff66bfdda65a730cf3ca9cb2a70b59498 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 22:59:24 +0800
Subject: [PATCH 160/188] arm uint in data section need IReg

---
 tinygrad/renderer/asm.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 0912fc537f718..78471fe9689ea 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -575,10 +575,11 @@ def acc(ctx, x, acc, src):
     return [f"{operator} {_acc}, {_src}"]
 
 def const(ctx, x):
-  reg = ctx.r.assign(x, reg_type=FReg)
-  reg_str = reg.render(x.dtype.itemsize)
   label = f"const_{len(ctx.mem)}"
   if Arch.arm:
+    reg_type = FReg if dtypes.is_float(x.dtype) else IReg
+    reg = ctx.r.assign(x, reg_type=reg_type)
+    reg_str = reg.render(x.dtype.itemsize)
     if x.dtype == dtypes.int64 or x.dtype == dtypes.uint64:
       data_type = ".quad"
     elif x.dtype == dtypes.int32 or x.dtype == dtypes.uint32:
@@ -595,6 +596,8 @@ def const(ctx, x):
   else:
     if dtypes.is_int(x.dtype):
       raise Exception("Do not handle integer on x86 in the data section on x86")
+    reg = ctx.r.assign(x, reg_type=FReg)
+    reg_str = reg.render(x.dtype.itemsize)
     if x.dtype.itemsize == 4:
       data_type = ".float"
       op = "movss"
@@ -1650,8 +1653,11 @@ def test_x86_const_int32(self): self._const(dtypes.int, 1, ["mov eax, 0x1"])
   def test_arm_const_int32(self): self._const(dtypes.int, 1, ["mov w0, #1"])
   @x86
   def test_x86_const_int64(self): self._const(dtypes.int64, 1, ["mov rax, 0x1"])
+
+  @unittest.skip("OUtdated")
   @arm
   def test_arm_const_int64(self): self._const(dtypes.int64, 1, ["mov x0, #1"])
+
   @x86
   def test_x86_const_float_scalar_32(self): self._const(dtypes.float, 1.0,
     ["movss xmm0, [rip+const_0]"])

From d22d51502b7d155d2c337b7731ca7f52e1a17e69 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 23:10:46 +0800
Subject: [PATCH 161/188] bitcast and uint promote

---
 tinygrad/renderer/asm.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 78471fe9689ea..ae469d9475056 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1097,10 +1097,10 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_f64(x)}, [{ctx.r.assign_i64(src)}]"]),
 
-  (UPat(Ops.BITCAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.float32),)),
+  (UPat(Ops.BITCAST, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"fmov {ctx.r.assign_i32(x)}, {ctx.r.assign_f32(a)}"]),
 
-  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.int32),)),
+  (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"fmov {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
@@ -1116,8 +1116,13 @@ def gated_load(ctx, x, bidx, alt, gate):
 
 ]) + complex_rewrites
 
+def promote_uint(ctx, x: UOp):
+  if x.arg > 0xFFFFFFFF: #4294967295:
+    return x.replace(dtype=dtypes.uint64)
+  else:
+    return x
 extra_matcher = PatternMatcher([
-  #(UPat(Ops.ASSIGN, name="assign", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat((Ops.ADD,), name="add"))), lambda ctx, assign, acc, add: add),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.uint32), promote_uint),
 ])
 
 if Arch.arm:

From 98eb86b344a620b2c00affd19a25ed2803b0c7f0 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sat, 2 Aug 2025 23:20:36 +0800
Subject: [PATCH 162/188]  fix uint overflow

---
 tinygrad/renderer/asm.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ae469d9475056..9e83186b81533 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1116,13 +1116,15 @@ def gated_load(ctx, x, bidx, alt, gate):
 
 ]) + complex_rewrites
 
-def promote_uint(ctx, x: UOp):
-  if x.arg > 0xFFFFFFFF: #4294967295:
-    return x.replace(dtype=dtypes.uint64)
+def fix_uint(ctx, x: UOp):
+  max_val = 0xFFFFFFFF
+  effective_value = x.arg & max_val
+  if x.arg > max_val: #4294967295:
+    return x.replace(arg=effective_value)
   else:
     return x
 extra_matcher = PatternMatcher([
-  (UPat(Ops.CONST, name="x", dtype=dtypes.uint32), promote_uint),
+  (UPat(Ops.CONST, name="x", dtype=dtypes.uint32), fix_uint),
 ])
 
 if Arch.arm:

From 7de62205fcf78aa2695d0a5a9e284cc491cbbdc7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 00:58:41 +0800
Subject: [PATCH 163/188] debug info and alignment on arm for data section

---
 test/test_ops_2.py       |  4 ++++
 tinygrad/renderer/asm.py | 13 ++++++++++---
 2 files changed, 14 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 6322925b88b8d..9ceb5ca7ac367 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -645,14 +645,18 @@ def test_all(self):
     helper_test_op([()], lambda x: x.all(), forward_only=True)
 
   def test_cmp_lt_backwards(self):
+    Tensor.manual_seed(0)
     tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt < 0)).sum().backward()
+    print(f"{tt.grad.numpy()=}")
     t = torch.tensor(tt.numpy(), requires_grad=True)
     (t*(t < 0)).sum().backward()
+    print(f"{tt.grad.numpy()=}")
     np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
 
   @skipU("MANUAL")
   def test_manual(self):
+    Tensor.manual_seed(0)
     tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt < 0)).sum().backward()
     t = torch.tensor(tt.numpy(), requires_grad=True)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9e83186b81533..bcb0b05e136d4 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -758,7 +758,10 @@ def cmp_arm(ctx, x, a, b):
     op = "cmp"
   else:
     dst = ctx.r.assign(x, IReg)
-    src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
+    if a == b:
+      src_a = src_b = ctx.r.assign(a, FReg)
+    else:
+      src_a, src_b = ctx.r.assign_multiple([a, b], FReg)
     op = "fcmp"
   size = a.dtype.itemsize
   cmp = "lt" if x.op is Ops.CMPLT else "ne"
@@ -1273,7 +1276,11 @@ def render(self, uops:List[UOp]) -> str:
       "pop rbp",
       "ret",
     ]
-    mem_data = [f"{a}: {b}" for a,b in mem]
+    mem_data = []
+    for a,b in mem:
+      if b.startswith(".quad"):
+        mem_data.append(f".align 3")
+      mem_data.append(f"{a}: {b}")
     data_section = [
       ".section .data",
       ".p2align 3",
@@ -1295,7 +1302,7 @@ def render(self, uops:List[UOp]) -> str:
 {_kernel}
     """
     if folder:=os.environ.get("SAVE_ASM"):
-      with open(f"../tg-dev/{folder}/kernel.s", "wt") as f: f.write(ret)
+      with open(f"../tg-dev/{folder}/{name}.s", "wt") as f: f.write(ret)
     return ret
 
 #TESTS

From dff4699e5ec5930686f5415a7075903cfc323d2e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 17:29:23 +0800
Subject: [PATCH 164/188] fix uint overflow, udiv in arm

---
 test/test_ops_2.py       | 6 +++---
 tinygrad/renderer/asm.py | 8 ++++----
 2 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 9ceb5ca7ac367..d9ec0d9c614eb 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -648,11 +648,11 @@ def test_cmp_lt_backwards(self):
     Tensor.manual_seed(0)
     tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt < 0)).sum().backward()
-    print(f"{tt.grad.numpy()=}")
+    print(f"tinygrad: {tt.grad.numpy()=}")
     t = torch.tensor(tt.numpy(), requires_grad=True)
     (t*(t < 0)).sum().backward()
-    print(f"{tt.grad.numpy()=}")
-    np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
+    print(f"torch: {t.grad.cpu().numpy()=}")
+    np.testing.assert_allclose(tt.grad.numpy(), t.grad.cpu().numpy(), rtol=1e-5)
 
   @skipU("MANUAL")
   def test_manual(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index bcb0b05e136d4..16a1ed0f3d317 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -889,8 +889,9 @@ def arm_idiv(ctx, x):
   dividend, divisor = x.src
   _dividend, _divisor, _quotient = ctx.r.assign_multiple(
     [dividend, divisor, x], IReg)
+  op = "udiv" if x.dtype == dtypes.uint32 else "sdiv"
   ret = [
-    f"sdiv {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
+    f"{op} {_quotient.render32()}, {_dividend.render32()}, {_divisor.render32()}"
   ]
   return ret
 
@@ -1122,14 +1123,13 @@ def gated_load(ctx, x, bidx, alt, gate):
 def fix_uint(ctx, x: UOp):
   max_val = 0xFFFFFFFF
   effective_value = x.arg & max_val
-  if x.arg > max_val: #4294967295:
+  if x.arg >= max_val: #4294967295:
     return x.replace(arg=effective_value)
   else:
     return x
 extra_matcher = PatternMatcher([
-  (UPat(Ops.CONST, name="x", dtype=dtypes.uint32), fix_uint),
+  (UPat(Ops.CONST, dtype=dtypes.uint, name="x"), fix_uint),
 ])
-
 if Arch.arm:
   extra_matcher += PatternMatcher([
     (UPat(Ops.MOD, name="x", src=(UPat(name="src1"), UPat(name="src2"))),

From 21330200cdbaaef27749f748ae6688145c879dbb Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 21:03:24 +0800
Subject: [PATCH 165/188] x86 idiv use xor for uint rdx

---
 test/test_ops_2.py       | 17 +++++++++++++++++
 tinygrad/renderer/asm.py | 11 ++++++++---
 2 files changed, 25 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d9ec0d9c614eb..514226fbb61f0 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -653,6 +653,23 @@ def test_cmp_lt_backwards(self):
     (t*(t < 0)).sum().backward()
     print(f"torch: {t.grad.cpu().numpy()=}")
     np.testing.assert_allclose(tt.grad.numpy(), t.grad.cpu().numpy(), rtol=1e-5)
+  def test_cmp_ne_backwards(self):
+    # new grad zeroes these out
+    """
+    t1 = torch.ones(4, requires_grad=True)
+    t2 = torch.ones(4, requires_grad=True)
+    self.assertRaises(RuntimeError, (t1 != t2).sum().backward)
+    tt1 = Tensor.ones(4, requires_grad=True)
+    tt2 = Tensor.ones(4, requires_grad=True)
+    self.assertRaises(RuntimeError, (tt1 != tt2).sum().backward)
+    """
+    Tensor.manual_seed(0)
+    tt = Tensor.randn(1, requires_grad=True)
+    (tt*(tt != 0)).sum().backward()
+    t = torch.tensor(tt.numpy(), requires_grad=True)
+    (t*(t != 0)).sum().backward()
+    np.testing.assert_allclose(tt.grad.numpy(), t.grad.cpu().numpy(), rtol=1e-5)
+
 
   @skipU("MANUAL")
   def test_manual(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 16a1ed0f3d317..7be8c0edf9fcf 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -875,11 +875,16 @@ def x86_idiv(ctx, x):
   elif x.op is Ops.MOD:
     result_reg = "rdx"
   else: raise Exception(f"Invalid op {x.op}")
-  extend = "cdq" if x.dtype.itemsize == 4 else "cqo"
+  if x.dtype == dtypes.uint32 or x.dtype == dtypes.uint64:
+    op = "div"
+    sign_extend = [f"xor {IReg(2).render(x.dtype.itemsize)}, {IReg(2).render(x.dtype.itemsize)}"]
+  else:
+    sign_extend = ["cdq" if x.dtype.itemsize == 4 else "cqo"]
+    op = "idiv"
   ret = [
     f"mov rax, {_dividend.render64()}",
-    extend,
-    f"idiv {_divisor.render(x.dtype.itemsize)}",
+    *sign_extend,
+    f"{op} {_divisor.render(x.dtype.itemsize)}",
     f"mov {_dst}, {result_reg}",
     *mov2,
   ]

From 01b4a090e94fbaeac267fd004b5f8fa644475ab1 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 21:27:53 +0800
Subject: [PATCH 166/188] xorps instead of por

---
 test/test_ops_2.py       | 12 +++++-------
 tinygrad/renderer/asm.py |  2 +-
 2 files changed, 6 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 514226fbb61f0..6b5f9cf4ce86a 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -664,21 +664,19 @@ def test_cmp_ne_backwards(self):
     self.assertRaises(RuntimeError, (tt1 != tt2).sum().backward)
     """
     Tensor.manual_seed(0)
-    tt = Tensor.randn(1, requires_grad=True)
+    tt = Tensor.randn(4, requires_grad=True)
     (tt*(tt != 0)).sum().backward()
     t = torch.tensor(tt.numpy(), requires_grad=True)
     (t*(t != 0)).sum().backward()
     np.testing.assert_allclose(tt.grad.numpy(), t.grad.cpu().numpy(), rtol=1e-5)
 
+  def test_logical_not(self):
+    helper_test_op(None, torch.logical_not, Tensor.logical_not, vals=[[True, False, True]], forward_only=True)
+    helper_test_op(None, torch.logical_not, Tensor.logical_not,
+                   vals=[[1.,2.,0.,0.5]], forward_only=True)
 
   @skipU("MANUAL")
   def test_manual(self):
-    Tensor.manual_seed(0)
-    tt = Tensor.randn(4, requires_grad=True)
-    (tt*(tt < 0)).sum().backward()
-    t = torch.tensor(tt.numpy(), requires_grad=True)
-    (t*(t < 0)).sum().backward()
-    np.testing.assert_allclose(t.grad.cpu().numpy(), tt.grad.numpy(), rtol=1e-5)
     pass
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 7be8c0edf9fcf..6993c6106d1a8 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -683,8 +683,8 @@ def to_bool(ctx, x, a):
       test_op = "cmp"
       reset_op = "xor"
     else:
-      reset_op = "por"
       test_op = "ucomiss" if a.dtype.itemsize == 4 else "ucomisd"
+      reset_op = "xorps"
     return [
       f"xor {dst}, {dst}",
       f"{reset_op} {temp_reg}, {temp_reg}",

From df3d575ba5851fcdf31562030b83a61b6a20a223 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 21:39:48 +0800
Subject: [PATCH 167/188] uint8

---
 test/test_ops_2.py       |  1 +
 tinygrad/renderer/asm.py | 16 ++++++++--------
 2 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 6b5f9cf4ce86a..0f025aad18cbf 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -677,6 +677,7 @@ def test_logical_not(self):
 
   @skipU("MANUAL")
   def test_manual(self):
+    helper_test_op([(2,3,64,64)], lambda x: x.type(torch.uint8), lambda x: x.cast('uint8'), forward_only=True)
     pass
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 6993c6106d1a8..046c875904deb 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -994,9 +994,9 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int32, dtypes.uint32)), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int64, dtypes.uint64)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.bool, dtypes.uint8)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.bool, dtypes.uint8)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
@@ -1011,7 +1011,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
 
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
@@ -1022,7 +1022,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
 
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
 
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
@@ -1071,9 +1071,9 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.ADD, name="x", src=(UPat(Ops.DEFINE_REG, name="acc"), UPat(name="src"))), acc),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int32)), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, #{x.arg}"]),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int64, dtypes.uint64, dtypes.uint32)), const),
-  (UPat(Ops.CONST, name="x", dtype=dtypes.bool), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.bool, dtypes.uint8)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.bool))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.bool, dtypes.uint8)))),
       lambda ctx, x, addr, src: [f"strb {ctx.r.assign_i8(src)}, [{ctx.r.assign_i64(addr)}]"]),
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_i32(src)}, [{ctx.r.assign_i64(addr)}]"]),
@@ -1084,7 +1084,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_f64(src)}, [{ctx.r.assign_i64(addr)}]"]),
 
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.bool, src=(UPat(name="src"),), allow_any_len=True),
+  (UPat(Ops.DEFINE_REG, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
@@ -1095,7 +1095,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
       lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
 
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.bool, src=(UPat(name="src",),)),
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldrb {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldr {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),

From 4a61571cf1eaffca8731a925e6c1b0ed1c7b2911 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 23:17:39 +0800
Subject: [PATCH 168/188] uints max

---
 test/test_ops_2.py       |  4 +++-
 tinygrad/renderer/asm.py | 23 +++++++++++++++++++++--
 2 files changed, 24 insertions(+), 3 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 0f025aad18cbf..890eac268374c 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -677,7 +677,9 @@ def test_logical_not(self):
 
   @skipU("MANUAL")
   def test_manual(self):
-    helper_test_op([(2,3,64,64)], lambda x: x.type(torch.uint8), lambda x: x.cast('uint8'), forward_only=True)
+    helper_test_op(None,
+      lambda x: x.type(torch.uint8).min(),
+      lambda x: x.cast(dtypes.uint8).min(), forward_only=True, vals=[[0, 128]])
     pass
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 046c875904deb..ad112813f4527 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -912,7 +912,22 @@ def max_int(ctx, x):
     return [
       f"mov {_dst.render(size)}, {_src1.render(size)}",
       f"cmp {_src1.render(size)}, {_src2.render(size)}",
-      f"cmovl {_dst.render(size)}, {_src2.render(size)}",
+      f"cmovl {_dst.render(8)}, {_src2.render(8)}",
+    ]
+
+def max_uint(ctx, x):
+  src1, src2 = x.src
+  _dst, _src1, _src2 = ctx.r.assign_multiple([x, src1, src2], IReg)
+  size = x.dtype.itemsize
+  if Arch.arm:
+    return [f"cmp {_src1.render(size)}, {_src2.render(size)}",
+            f"csel {_dst.render(size)}, {_src1.render(size)}, {_src2.render(size)}, hi"
+            ]
+  else:
+    return [
+      f"mov {_dst.render(size)}, {_src1.render(size)}",
+      f"cmp {_src1.render(size)}, {_src2.render(size)}",
+      f"cmovb {_dst.render(8)}, {_src2.render(8)}",
     ]
 
 def cast_bool_to_int(ctx, x, a):
@@ -967,7 +982,8 @@ def gated_load(ctx, x, bidx, alt, gate):
     UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"),
     UPat.var("alt")), allow_any_len=True),
    gated_load),
-  (UPat(Ops.MAX, name="x", dtype=dtypes.ints), max_int),
+  (UPat(Ops.MAX, name="x", dtype=dtypes.sints), max_int),
+  (UPat(Ops.MAX, name="x", dtype=dtypes.uints), max_uint),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(GroupOp.ALU, name="x"), alu),
@@ -1132,8 +1148,11 @@ def fix_uint(ctx, x: UOp):
     return x.replace(arg=effective_value)
   else:
     return x
+def fix_uint8(ctx, x: UOp):
+  return x.replace(arg=x.arg % (0xff+1))
 extra_matcher = PatternMatcher([
   (UPat(Ops.CONST, dtype=dtypes.uint, name="x"), fix_uint),
+  (UPat(Ops.CONST, dtype=dtypes.uint8, name="x"), fix_uint8),
 ])
 if Arch.arm:
   extra_matcher += PatternMatcher([

From bd667d2bfe74e2cae808551076b064d5f30d5708 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 23:18:12 +0800
Subject: [PATCH 169/188] test uint min

---
 test/test_ops_2.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 890eac268374c..8ca5de6094b41 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -675,6 +675,14 @@ def test_logical_not(self):
     helper_test_op(None, torch.logical_not, Tensor.logical_not,
                    vals=[[1.,2.,0.,0.5]], forward_only=True)
 
+  def test_min(self):
+    helper_test_op(None,
+      lambda x: x.type(torch.uint8).min(),
+      lambda x: x.cast(dtypes.uint8).min(), forward_only=True, vals=[[[0, 1, 2], [3, 4, 5]]])
+    helper_test_op(None,
+      lambda x: x.type(torch.uint8).min(),
+      lambda x: x.cast(dtypes.uint8).min(), forward_only=True, vals=[[0, 128, 255, 64, 32, 16]])
+
   @skipU("MANUAL")
   def test_manual(self):
     helper_test_op(None,

From 7a0162002c51be2f2e21002f527d225299eebdc7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 23:31:49 +0800
Subject: [PATCH 170/188] alu use only 32 bit

---
 tinygrad/renderer/asm.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ad112813f4527..46bdbb6cb0f24 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -540,8 +540,8 @@ def alu(ctx, x):
   else:
     dst = ctx.r.assign(x, reg_type, src_regs)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
-  _dst = dst.render(dtype.itemsize)
-  src_regs_str = [reg.render(dtype.itemsize) for reg in src_regs]
+  _dst = dst.render(max(4, dtype.itemsize))
+  src_regs_str = [reg.render(max(4, dtype.itemsize)) for reg in src_regs]
   if Arch.arm:
     return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
   else:
@@ -1059,7 +1059,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints+(dtypes.bool,)),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.float32),)),
@@ -1128,7 +1128,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"fmov {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
-  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints),)),
+  (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=(dtypes.float32, dtypes.float64)),)),

From 5077d3251df3538bf9111dda7f69facfacfe3585 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Sun, 3 Aug 2025 23:55:31 +0800
Subject: [PATCH 171/188] x86 params greater than 6

---
 tinygrad/renderer/asm.py | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 46bdbb6cb0f24..0cc8851ce3c9e 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1243,16 +1243,26 @@ def render(self, uops:List[UOp]) -> str:
       r.free_expired(i)
       if u.op is Ops.DEFINE_GLOBAL:
         var = r.uops[u]
+        reg = None
+        stack = None
         if Arch.arm:
           reg = IReg(u.arg)
         else:
-          reg = IReg(x86_params[u.arg])
+          if u.arg > 5:
+            r.stack_size += 8
+            stack = r.stack_size
+          else:
+            reg = IReg(x86_params[u.arg])
         pool = r.pools[IReg]
-        pool.pop(pool.index(reg))
-        pool.acquire_reg(reg, var)
-        var.reg = reg
-        r.move_var_to_stack(var)
-        kernel.extend(r.flush_kernel())
+        if reg is not None:
+          pool.pop(pool.index(reg))
+          pool.acquire_reg(reg, var)
+          var.reg = reg
+          r.move_var_to_stack(var)
+          kernel.extend(r.flush_kernel())
+        else:
+          assert stack is not None
+          var.stack = stack
           
       elif u.op is Ops.SINK:
         if u.arg is not None: name = u.arg.function_name

From deb2a61fd2f8e40f6a638e29d27e9e2745f50baa Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 00:51:59 +0800
Subject: [PATCH 172/188] x86 params offset

---
 tinygrad/renderer/asm.py | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 0cc8851ce3c9e..ce2e88ec082bd 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -111,11 +111,12 @@ def move_reg_mem(op: Union[Literal["str"], Literal["ldr"]],
       _op = "mov"
     else:
       _op = "movss" if size == 4 else "movsd"
-
+    
+    offset_str = f"- {stack}" if stack >= 0 else f"+ {-1 * stack}"
     if op == "str":
-      return [f"{_op} [rbp - {stack}], {reg.render64()}"]
+      return [f"{_op} [rbp {offset_str}], {reg.render64()}"]
     else:
-      return [f"{_op} {reg.render64()}, [rbp - {stack}]"]
+      return [f"{_op} {reg.render64()}, [rbp {offset_str}]"]
 
 
 class Variable:
@@ -1230,6 +1231,11 @@ def render(self, uops:List[UOp]) -> str:
         print(i, v, oneline_uop(u))
     if Arch.x86:
       r.blocked.append(IReg(5))
+
+    for u in uops:
+      if u.op is Ops.DEFINE_GLOBAL and u.arg > 5:
+        var = r.uops[u]
+        var.stack = 8 + (u.arg-5) * 8
     
     r.bookkeeping()
     for i,u in enumerate(uops):
@@ -1248,10 +1254,7 @@ def render(self, uops:List[UOp]) -> str:
         if Arch.arm:
           reg = IReg(u.arg)
         else:
-          if u.arg > 5:
-            r.stack_size += 8
-            stack = r.stack_size
-          else:
+          if u.arg < 6:
             reg = IReg(x86_params[u.arg])
         pool = r.pools[IReg]
         if reg is not None:
@@ -1260,9 +1263,6 @@ def render(self, uops:List[UOp]) -> str:
           var.reg = reg
           r.move_var_to_stack(var)
           kernel.extend(r.flush_kernel())
-        else:
-          assert stack is not None
-          var.stack = stack
           
       elif u.op is Ops.SINK:
         if u.arg is not None: name = u.arg.function_name

From 4b88db1c1d333eb8ae863e7a74fa13ca162c2786 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 00:53:40 +0800
Subject: [PATCH 173/188] test param exceeding 5

---
 test/test_ops_2.py | 28 ++++++++++++++++++++++++----
 1 file changed, 24 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 8ca5de6094b41..b22fbbe67d50d 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -685,10 +685,30 @@ def test_min(self):
 
   @skipU("MANUAL")
   def test_manual(self):
-    helper_test_op(None,
-      lambda x: x.type(torch.uint8).min(),
-      lambda x: x.cast(dtypes.uint8).min(), forward_only=True, vals=[[0, 128]])
-    pass
+    torch.manual_seed(0)
+    b = torch.randint(3, size=[3,4,5], dtype=torch.int64, requires_grad=False)
+    a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
+    reduce = "mean"
+    dim = -1
+    helper_test_op([(4,5,6), (4,5,6)],
+      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce),
+      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce), forward_only=True)
+    helper_test_op([(4,5,6), (4,5,6)],
+      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
+      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
+
+  @skipU("MANUAL")  
+  def test_params_6(self):
+    t1 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t2 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t3 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t4 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t5 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t6 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t7 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t = (t1 + t2 + t3 + t4+t5+t6+t7).numpy()
+    assert t == [70]
+    print(t)
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()

From 9bcf8310f5bb54949d3fa100ac6e152fa39724f7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 14:59:16 +0800
Subject: [PATCH 174/188] x86 params use negative value to indicate stack
 params

---
 tinygrad/renderer/asm.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index ce2e88ec082bd..4b598847e143f 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1235,7 +1235,7 @@ def render(self, uops:List[UOp]) -> str:
     for u in uops:
       if u.op is Ops.DEFINE_GLOBAL and u.arg > 5:
         var = r.uops[u]
-        var.stack = 8 + (u.arg-5) * 8
+        var.stack = - 8 - (u.arg-5) * 8
     
     r.bookkeeping()
     for i,u in enumerate(uops):

From 5d59492a3011226d9cb59201b1516f3a44eaa6ce Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 15:00:52 +0800
Subject: [PATCH 175/188] scatter reduce

---
 test/test_ops_2.py | 50 ++++++++++++++++++++++++++++++++++++++--------
 1 file changed, 42 insertions(+), 8 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index b22fbbe67d50d..fee1d7ac876bc 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -683,31 +683,65 @@ def test_min(self):
       lambda x: x.type(torch.uint8).min(),
       lambda x: x.cast(dtypes.uint8).min(), forward_only=True, vals=[[0, 128, 255, 64, 32, 16]])
 
+  def test_scatter_reduce(self):
+    b = torch.randint(3, size=[3,4,5], dtype=torch.int64, requires_grad=False)
+    a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
+    for reduce in ("sum", "prod", "mean", "amin", "amax"):
+      for dim in (-1,1,-3):
+        helper_test_op([(4,5,6), (4,5,6)],
+          lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce),
+          lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce), forward_only=True)
+        helper_test_op([(4,5,6), (4,5,6)],
+          lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
+          lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
+
   @skipU("MANUAL")
-  def test_manual(self):
+  def test_scatter_reduce2(self):
     torch.manual_seed(0)
     b = torch.randint(3, size=[3,4,5], dtype=torch.int64, requires_grad=False)
     a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
     reduce = "mean"
     dim = -1
+    #helper_test_op([(4,5,6), (4,5,6)],
+    #  lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce),
+    #  lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce), forward_only=True)
     helper_test_op([(4,5,6), (4,5,6)],
-      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce),
-      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce), forward_only=True)
-    helper_test_op([(4,5,6), (4,5,6)],
       lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
       lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
 
-  @skipU("MANUAL")  
+  def test_scatter_reduce_small(self):
+    torch.manual_seed(0)
+    b = torch.tensor([[0,1,0], [1,0,1]], dtype=torch.int64, requires_grad=False)
+    a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
+    reduce = "mean"
+    dim = -1
+    shape = (2,3)
+    helper_test_op([shape, shape],
+      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
+      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
+
+  @skipU("MANUAL")
+  def test_manual(self):
+    torch.manual_seed(0)
+    b = torch.tensor([[0,1,0], [1,0,1]], dtype=torch.int64, requires_grad=False)
+    a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
+    reduce = "mean"
+    dim = -1
+    shape = (2,3)
+    helper_test_op([shape, shape],
+      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
+      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
+
   def test_params_6(self):
     t1 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
     t2 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
     t3 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
     t4 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
     t5 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
-    t6 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
-    t7 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
+    t6 = Tensor(np.array([20], dtype=np.int32), dtype=dtypes.int32)
+    t7 = Tensor(np.array([30], dtype=np.int32), dtype=dtypes.int32)
     t = (t1 + t2 + t3 + t4+t5+t6+t7).numpy()
-    assert t == [70]
+    assert t == [100]
     print(t)
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:

From 5c47f9fa1580125aa70f68c7b8585259c34d3951 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 15:05:12 +0800
Subject: [PATCH 176/188] stack params only in x86

---
 tinygrad/renderer/asm.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4b598847e143f..3143fa53fa169 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1233,9 +1233,10 @@ def render(self, uops:List[UOp]) -> str:
       r.blocked.append(IReg(5))
 
     for u in uops:
-      if u.op is Ops.DEFINE_GLOBAL and u.arg > 5:
-        var = r.uops[u]
-        var.stack = - 8 - (u.arg-5) * 8
+      if Arch.x86:
+        if u.op is Ops.DEFINE_GLOBAL and u.arg > 5:
+          var = r.uops[u]
+          var.stack = - 8 - (u.arg-5) * 8
     
     r.bookkeeping()
     for i,u in enumerate(uops):

From f35c9962fa6436b66ded7409d7ff9947083b9fdd Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 18:23:23 +0800
Subject: [PATCH 177/188] define_acc uses assign_multiple

---
 test/test_ops_2.py       | 16 ++++++--------
 tinygrad/renderer/asm.py | 47 +++++++++++++++++++++-------------------
 2 files changed, 32 insertions(+), 31 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index fee1d7ac876bc..d344bc25887b0 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -720,17 +720,15 @@ def test_scatter_reduce_small(self):
       lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
       lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
 
+  def test_softmax(self):
+    helper_test_op([(45,65)], torch.nn.Softmax(dim=1), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
+    helper_test_op([(9,)], torch.nn.Softmax(dim=0), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
+    helper_test_op([()], torch.nn.Softmax(dim=0), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
+    helper_test_op([()], torch.nn.Softmax(dim=-1), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
+
   @skipU("MANUAL")
   def test_manual(self):
-    torch.manual_seed(0)
-    b = torch.tensor([[0,1,0], [1,0,1]], dtype=torch.int64, requires_grad=False)
-    a = Tensor(b.detach().cpu().numpy().astype(np.int32), dtype=dtypes.int32, requires_grad=False)
-    reduce = "mean"
-    dim = -1
-    shape = (2,3)
-    helper_test_op([shape, shape],
-      lambda x,src: x.scatter_reduce(dim=dim, index=b, src=src, reduce=reduce, include_self=False),
-      lambda x,src: x.scatter_reduce(dim=dim, index=a, src=src, reduce=reduce, include_self=False), forward_only=True)
+    pass
 
   def test_params_6(self):
     t1 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 3143fa53fa169..df3e71a90bebf 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -978,7 +978,29 @@ def gated_load(ctx, x, bidx, alt, gate):
       f".END{step}:",
     ]
 
+def define_reg(ctx, x, src):
+  if x.dtype in [dtypes.bool, dtypes.uint8, dtypes.int32]:
+    reg_type = IReg
+    size1, size2 = 4, 4
+    op = "mov"
+  elif x.dtype == dtypes.int64:
+    reg_type = IReg
+    size1, size2 = 8, 8
+    op = "mov"
+  elif x.dtype == dtypes.float32:
+    reg_type = FReg
+    size1, size2 = 4, 4
+    op = "movss" if Arch.x86 else "fmov"
+  elif x.dtype == dtypes.float64:
+    reg_type = FReg
+    size1, size2 = 8, 8
+    op = "movsd" if Arch.x86 else "fmov"
+  else: raise Exception(f"Unsupported dtype {x.dtype=}")
+  acc, src = ctx.r.assign_multiple([x, src], reg_type=reg_type)
+  return [f"{op} {acc.render(size1)}, {src.render(size2)}"]
+
 complex_rewrites = PatternMatcher([
+  (UPat(Ops.DEFINE_REG, name="x", src=(UPat(name="src"),), allow_any_len=True), define_reg),
   (UPat(Ops.LOAD, name="x", src=(
     UPat(Ops.INDEX, src=(UPat(), UPat(), UPat.var("gate"))).or_casted("bidx"),
     UPat.var("alt")), allow_any_len=True),
@@ -997,6 +1019,7 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.CAST, name="x", dtype=dtypes.int32, src=(UPat(name="a", dtype=dtypes.bool),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 ])
+
 x86_rewrite = PatternMatcher([
   (UPat((Ops.IDIV, Ops.MOD), name="x"), x86_idiv),
   (UPat((Ops.CMPNE, Ops.CMPLT), name="x", src=(UPat(name="a", dtype=dtypes.ints + (dtypes.bool,)),
@@ -1028,16 +1051,6 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"movsd [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f64(src)}"]),
 
-  (UPat(Ops.DEFINE_REG, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=False)}, {ctx.r.assign_i64(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x, reserve=False)}, {ctx.r.assign_f32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"movsd {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
 
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
@@ -1101,17 +1114,6 @@ def gated_load(ctx, x, bidx, alt, gate):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
       lambda ctx, x, addr, src: [f"str {ctx.r.assign_f64(src)}, [{ctx.r.assign_i64(addr)}]"]),
 
-  (UPat(Ops.DEFINE_REG, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x, reserve=False)}, {ctx.r.assign_i32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.int64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x, reserve=False)}, {ctx.r.assign_i64(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float32, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"fmov {ctx.r.assign_f32(x, reserve=False)}, {ctx.r.assign_f32(src)}"]),
-  (UPat(Ops.DEFINE_REG, name="x", dtype=dtypes.float64, src=(UPat(name="src"),), allow_any_len=True),
-      lambda ctx, x, src: [f"fmov {ctx.r.assign_f64(x, reserve=False)}, {ctx.r.assign_f64(src)}"]),
-
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"ldrb {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
@@ -1275,7 +1277,8 @@ def render(self, uops:List[UOp]) -> str:
         l = [*r.flush_kernel(), *l, ""]
         if DEBUG.value >= 6:
           uop_str = [f".uop_{i}:"] + ["//"+_u for _u in str(u).split("\n")][:]
-          l = [*uop_str, *l]
+          var_info = f"//{r.uops[u]}"
+          l = [*uop_str, var_info, *l]
           print("\n".join(kernel)[-100:])
           print("\033[32m", "\n".join(l), "\033[0m", sep="")
         kernel.extend(l)

From 68d8d17a5fd89fad632d4304672f24815d6e7dbf Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Mon, 4 Aug 2025 19:07:26 +0800
Subject: [PATCH 178/188] _where bool

---
 test/test_ops_2.py       |  5 +++++
 tinygrad/renderer/asm.py | 12 ++++++++----
 2 files changed, 13 insertions(+), 4 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index d344bc25887b0..c01f162d8dbb8 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -730,6 +730,11 @@ def test_softmax(self):
   def test_manual(self):
     pass
 
+  def test_scaled_dot_product_attention_causal(self):
+    helper_test_op([(32,8,16,64), (32,8,16,64), (32,8,16,64)],
+                   lambda x,y,z: torch.nn.functional.scaled_dot_product_attention(x,y,z,is_causal=True),
+                   lambda x,y,z: Tensor.scaled_dot_product_attention(x,y,z,is_causal=True))
+
   def test_params_6(self):
     t1 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
     t2 = Tensor(np.array([10], dtype=np.int32), dtype=dtypes.int32)
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index df3e71a90bebf..4914d0f79fbc9 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -796,8 +796,10 @@ def recip(ctx, x):
 
 
 def _where(ctx, x):
-  if dtypes.is_int(x.dtype): reg_type = IReg
-  else: reg_type = FReg
+  if dtypes.is_float(x.dtype):
+    reg_type = FReg
+  else:
+    reg_type = IReg
   cond, t, f = x.src
   _cond = ctx.r.assign(cond, reg_type=IReg)
   exclude_cond = [cond] if reg_type == IReg else []
@@ -813,8 +815,10 @@ def _where(ctx, x):
 	f"{op} {_dst.render(size)}, {_t.render(size)}, {_f.render(size)}, ne"  # Select _t if true, _f if false
     ]
   else:
-    if dtypes.is_int(x.dtype): mov_op = "mov"
-    else: mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
+    if dtypes.is_float(x.dtype):
+      mov_op = "movaps" if x.dtype.itemsize == 4 else "movapd"
+    else:
+      mov_op = "mov"
     return [
       f"test {_cond}, {_cond}", #ZF=1 if _cond=0 => false
       f"jz .f_case_{ctx.r.cur_step}", #jump if ZF=1 => condition is false

From 9d1ca36c80818e54398f276118b82de20b74849c Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 01:32:34 +0800
Subject: [PATCH 179/188] clear dst first before gated load

---
 test/test_ops_2.py       | 2 +-
 tinygrad/renderer/asm.py | 5 ++++-
 2 files changed, 5 insertions(+), 2 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index c01f162d8dbb8..042e4363e09b7 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -728,8 +728,8 @@ def test_softmax(self):
 
   @skipU("MANUAL")
   def test_manual(self):
+    helper_test_op([(2, 4)], lambda x: x.masked_select(x>0.5), lambda x: x.masked_select(x>0.5), forward_only=True)
     pass
-
   def test_scaled_dot_product_attention_causal(self):
     helper_test_op([(32,8,16,64), (32,8,16,64), (32,8,16,64)],
                    lambda x,y,z: torch.nn.functional.scaled_dot_product_attention(x,y,z,is_causal=True),
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 4914d0f79fbc9..a7c12771a368c 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -960,7 +960,9 @@ def gated_load(ctx, x, bidx, alt, gate):
   size = x.dtype.itemsize
   if Arch.x86:
     op = "mov" if reg_type is IReg else "movss" if size == 4 else "movsd"
+    clear_op = "xor" if reg_type is IReg else "xorps" if x.dtype.itemsize == 4 else "xorpd"
     return [
+      f"{clear_op} {_x}, {_x}",
       f"cmp {_gate}, 1",
       f"jne .ALT{step}",
       f"{op} {_x.render(size)}, [{_bidx}]",
@@ -973,6 +975,7 @@ def gated_load(ctx, x, bidx, alt, gate):
     mov_op = "mov" if reg_type is IReg else "fmov"
     mem_op = {1: "ldrb", 2: "ldrh", 4: "ldr", 8: "ldr"}.get(size)
     return [
+      f"eor {_x}, {_x}",
       f"cmp {_gate}, #1",
       f"b.ne .ALT{step}",
       f"{mem_op} {_x.render(size)}, [{_bidx}]",
@@ -1057,7 +1060,7 @@ def define_reg(ctx, x, src):
 
 
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.bool, dtypes.uint8), src=(UPat(name="src",),)),
-     lambda ctx, x, src: [f"movzx {ctx.r.assign_i32(x)}, byte ptr [{ctx.r.assign_i64(src)}]"]),
+     lambda ctx, x, src: [f"movzx {ctx.r.assign(x, reg_type=IReg).render32()}, byte ptr [{ctx.r.assign_i64(src)}]"]),
 
   (UPat(Ops.LOAD, name="x", dtype=(dtypes.int32, dtypes.uint32), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"mov {ctx.r.assign_i32(x)}, [{ctx.r.assign_i64(src)}]"]),

From 7e93f2c4898620e026e2b1535c613864e3fec43e Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 01:35:14 +0800
Subject: [PATCH 180/188] arm already zero extend

---
 tinygrad/renderer/asm.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index a7c12771a368c..43905b1fa0bac 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -975,7 +975,6 @@ def gated_load(ctx, x, bidx, alt, gate):
     mov_op = "mov" if reg_type is IReg else "fmov"
     mem_op = {1: "ldrb", 2: "ldrh", 4: "ldr", 8: "ldr"}.get(size)
     return [
-      f"eor {_x}, {_x}",
       f"cmp {_gate}, #1",
       f"b.ne .ALT{step}",
       f"{mem_op} {_x.render(size)}, [{_bidx}]",

From ab4145c7a1e926366ffdc1cceb31c87a23dfa42a Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 01:41:17 +0800
Subject: [PATCH 181/188] f32 cast to f64

---
 tinygrad/renderer/asm.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 43905b1fa0bac..9ef410d3bf73c 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1097,6 +1097,9 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.int64),)),
     lambda ctx, x, a: [f"cvtsi2sd {ctx.r.assign_f64(x)}, {ctx.r.assign_i32(a)}"]),
 
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"cvtps2pd {ctx.r.assign_f64(x)}, {ctx.r.assign_f32(a)}"]),
+
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From f6487cc8315f53e3ba1b79b241f2eb8961723d26 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 14:23:14 +0800
Subject: [PATCH 182/188] log output bytes

---
 tinygrad/device.py | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/tinygrad/device.py b/tinygrad/device.py
index 0aa5a7953e55f..76108853ea9dc 100644
--- a/tinygrad/device.py
+++ b/tinygrad/device.py
@@ -320,8 +320,8 @@ def __init__(self, name:str, lib:bytes):
   def __call__(self, *bufs, vals=(), wait=False):
     args = list(bufs) + list(vals)
     if p:=os.environ.get("SAVE_BYTES"):
-      for i, b in enumerate(bufs):
-        print(f"Data {i}:")
+      for i, b in enumerate(bufs[1:]):
+        print(f"Data {i+1}:")
         _bytes = bytes(b)
         print(", ".join([f"0x{_b:02x}" for _b in _bytes]))
         print()
@@ -331,7 +331,14 @@ def __call__(self, *bufs, vals=(), wait=False):
     # This hack is required because clang/llvm bug doesn't allow us to just use {host's triple}+'-elf' (relocation failures)
     # The bug was fixed in https://github.com/llvm/llvm-project/commit/454cc36630296262cdb6360b60f90a64a97f7f1a but was only backported to xcode 16+
     if platform.machine() == "arm64" and OSX: args = args[:8] + [ctypes.c_int64(a) if isinstance(a, int) else a for a in args[8:]]
-    return cpu_time_execution(lambda: self.fxn(*args), enable=wait)
+    ret = cpu_time_execution(lambda: self.fxn(*args), enable=wait)
+    if p:=os.environ.get("SAVE_BYTES"):
+      for i, b in enumerate(bufs[0:1]):
+        print(f"Data {i}:")
+        _bytes = bytes(b)
+        print(", ".join([f"0x{_b:02x}" for _b in _bytes]))
+        print()
+    return
 
   def __del__(self):
     if sys.platform == 'win32': ctypes.windll.kernel32.VirtualFree(ctypes.c_void_p(self.mem), ctypes.c_size_t(0), 0x8000) #0x8000 - MEM_RELEASE

From d1d49a2aded66bfbf2bbcb5534eb4b6a10d0b9e5 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 14:23:28 +0800
Subject: [PATCH 183/188] failing interpolate due to uint8

---
 tinygrad/renderer/asm.py | 19 +++++++++++++++++--
 1 file changed, 17 insertions(+), 2 deletions(-)

diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 9ef410d3bf73c..7ab69ec10a716 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -59,6 +59,13 @@ def render8(self):
         return ["al", "cl", "dl", "bl", "spl", "bpl", "sil", "dil"][self.id]
       else:
         return f"r{self.id}b"
+  def render16(self):
+    if Arch.arm: return self.render32()
+    else:
+      if self.id < 8:
+        return ["ax", "cx", "dx", "bx", "sp", "bp", "si", "di"][self.id]
+      else:
+        return f"r{self.id}w"
   def render32(self):
     if Arch.arm: return f"w{self.id}"
     else: return ["eax", "ecx", "edx", "ebx", "esp", "ebp", "esi", "edi",
@@ -72,6 +79,7 @@ def render(self, itemsize: int):
     itemsize: bytes
     """
     if itemsize == 1: return self.render8()
+    if itemsize == 2: return self.render16()
     if itemsize == 4: return self.render32()
     if itemsize == 8: return self.render64()
     raise Exception(f"Either 4 or 8 bytes for register, received {itemsize}")
@@ -585,6 +593,8 @@ def const(ctx, x):
       data_type = ".quad"
     elif x.dtype == dtypes.int32 or x.dtype == dtypes.uint32:
       data_type = ".word"
+    elif x.dtype == dtypes.short:
+      data_type = ".hword"
     elif x.dtype.itemsize == 4:
       data_type = ".single"
     else:
@@ -602,9 +612,10 @@ def const(ctx, x):
     if x.dtype.itemsize == 4:
       data_type = ".float"
       op = "movss"
-    else:
+    elif x.dtype.itemsize == 8:
       data_type = ".double"
       op = "movsd"
+    else: raise Exception(f"invalid itemsize {x.dtype=}")
     ctx.mem.append((label, f"{data_type} {x.arg}"))
     return [ f"{op} {reg_str}, [rip+{label}]" ]
 
@@ -880,7 +891,7 @@ def x86_idiv(ctx, x):
   elif x.op is Ops.MOD:
     result_reg = "rdx"
   else: raise Exception(f"Invalid op {x.op}")
-  if x.dtype == dtypes.uint32 or x.dtype == dtypes.uint64:
+  if x.dtype == dtypes.uint32 or x.dtype == dtypes.uint64 or x.dtype == dtypes.uint16:
     op = "div"
     sign_extend = [f"xor {IReg(2).render(x.dtype.itemsize)}, {IReg(2).render(x.dtype.itemsize)}"]
   else:
@@ -1041,6 +1052,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int32, dtypes.uint32)), lambda ctx, x: [f"mov {ctx.r.assign_i32(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int64, dtypes.uint64)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {x.arg:#x}"]),
   (UPat(Ops.CONST, name="x", dtype=(dtypes.bool, dtypes.uint8)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
+  (UPat(Ops.CONST, name="x", dtype=(dtypes.int16, dtypes.uint16)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.bool, dtypes.uint8)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
@@ -1082,6 +1094,9 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints+(dtypes.bool,)),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 
+  (UPat(Ops.CAST, name="x", dtype=(dtypes.int16, dtypes.uint16), src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"cvttss2si {ctx.r.assign(x, reg_type=IReg).render(4)}, {ctx.r.assign_f32(a)}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"cvttss2si {ctx.r.assign(x, reg_type=IReg).render(x.dtype.itemsize)}, {ctx.r.assign_f32(a)}"]),
 

From 519e4bde36c59bcc09ff4b1b0902d56b611f96f6 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 19:38:17 +0800
Subject: [PATCH 184/188] unsigned mul for x86 uses rax

---
 test/test_ops_2.py       | 25 +++++++++++++++---
 tinygrad/renderer/asm.py | 55 ++++++++++++++++++++++++++++++++++------
 2 files changed, 68 insertions(+), 12 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index 042e4363e09b7..a0631e67fd3a3 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -726,10 +726,7 @@ def test_softmax(self):
     helper_test_op([()], torch.nn.Softmax(dim=0), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
     helper_test_op([()], torch.nn.Softmax(dim=-1), Tensor.softmax, atol=1e-7, grad_atol=1e-7)
 
-  @skipU("MANUAL")
-  def test_manual(self):
-    helper_test_op([(2, 4)], lambda x: x.masked_select(x>0.5), lambda x: x.masked_select(x>0.5), forward_only=True)
-    pass
+
   def test_scaled_dot_product_attention_causal(self):
     helper_test_op([(32,8,16,64), (32,8,16,64), (32,8,16,64)],
                    lambda x,y,z: torch.nn.functional.scaled_dot_product_attention(x,y,z,is_causal=True),
@@ -747,6 +744,26 @@ def test_params_6(self):
     assert t == [100]
     print(t)
 
+  def test_interpolate_bilinear2(self):
+    out_sz = (2, 1)
+    helper_test_op([(1,1,1,4)],
+      lambda x: torch.nn.functional.interpolate((10*x).relu().type(torch.uint8), size=out_sz, mode="bilinear"),
+      lambda x: Tensor.interpolate((10*x).relu().cast('uint8'), size=out_sz, mode="linear"), forward_only=True)
+
+  def test_interpolate_bilinear(self):
+    out_sz = (10, 10)
+    helper_test_op([(2,3,64,64)],
+      lambda x: torch.nn.functional.interpolate((10*x).relu().type(torch.uint8), size=out_sz, mode="bilinear"),
+      lambda x: Tensor.interpolate((10*x).relu().cast('uint8'), size=out_sz, mode="linear"), forward_only=True)
+
+  @skipU("MANUAL")
+  def test_manual(self):
+    out_sz = (10, 10)
+    helper_test_op([(2,3,64,64)],
+      lambda x: torch.nn.functional.interpolate((10*x).relu().type(torch.uint8), size=out_sz, mode="bilinear"),
+      lambda x: Tensor.interpolate((10*x).relu().cast('uint8'), size=out_sz, mode="linear"), forward_only=True)
+    pass
+
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
   t0 = time.time()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 7ab69ec10a716..cd8a77eddba7e 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -549,26 +549,61 @@ def alu(ctx, x):
   else:
     dst = ctx.r.assign(x, reg_type, src_regs)
   operator = AluOps.get((x.op, Arch.arch, reg_type, 8*x.dtype.itemsize))
-  _dst = dst.render(max(4, dtype.itemsize))
-  src_regs_str = [reg.render(max(4, dtype.itemsize)) for reg in src_regs]
+  _dst = dst.render(max(2, dtype.itemsize))
+  src_regs_str = [reg.render(max(2, dtype.itemsize)) for reg in src_regs]
   if Arch.arm:
-    return [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
+    ret = [f"{operator} {_dst}, {', '.join(src_regs_str)}"]
+    return ret
   else:
     _mov = "mov" if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else "movss" 
     if dst == src_regs[0] and len(src_regs_str) == 2:
-      return [f"{operator} {_dst}, {src_regs_str[1]}"]
+      ret = [f"{operator} {_dst}, {src_regs_str[1]}"]
     elif len(src_regs_str) == 2:
       clear_op = "xor" if reg_type is IReg else "xorps" if dtype.itemsize == 4 else "xorpd"
-      return [
+      ret = [
         f"{clear_op} {dst}, {dst}",
         f"{_mov} {_dst}, {src_regs_str[0]}",
         f"{operator} {_dst}, {src_regs_str[1]}",]
     elif _dst == src_regs_str[0] and len(src_regs_str) == 1:
-      return [f"{operator} {_dst}, {src_regs_str[0]}"]
+      ret = [f"{operator} {_dst}, {src_regs_str[0]}"]
     elif len(src_regs_str) == 1:
-      return [f"{operator} {_dst}, {src_regs_str[0]}"]
+      ret = [f"{operator} {_dst}, {src_regs_str[0]}"]
     else:
       raise Exception("ALU error handling srcs")
+    return ret
+
+def x86_uint8_alu(ctx, x):
+  reg_type = IReg
+  vars_holding_eax = ctx.r.find_vars_holding_reg(IReg(0))
+  for var in vars_holding_eax:
+    if var.stack is None:
+      ctx.r.stack_size += (var.reg.size // 8)
+      var.stack = ctx.r.stack_size
+    ctx.r.kernel.extend(var.store())
+    var.reg = None
+    ctx.r.pools[IReg].release_reg(IReg(0), var)
+  _dst, *srcs = ctx.r.assign_multiple([x] + list(x.src), reg_type=IReg, excludes=[IReg(0)])
+  src_str = [reg.render8() for reg in srcs]
+  operator = AluOps.get((x.op, Arch.arch, IReg))
+  mov2 = []
+  if len(vars_holding_eax) >= 1:
+    var0 = vars_holding_eax[0]
+    mov2.extend([
+      *move_reg_mem("ldr", IReg(0), var0.stack, 8)
+    ])
+    for var in vars_holding_eax:
+      if var.reg is not None:
+        ctx.r.pools[IReg].release_reg(var.reg, var)
+        if var.reg not in ctx.r.pools[IReg]._acquired:
+          ctx.r.pools[IReg].insert(0, var.reg)
+      var.reg = IReg(0)
+      ctx.r.pools[IReg].acquire_reg(IReg(0), var)
+  return [f"xor rax, rax",
+          f"movzx rax, {src_str[0]}",
+          f"{operator} {src_str[1]}",
+          f"mov {_dst}, rax",
+          *mov2,
+          ]
 
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
@@ -1026,6 +1061,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.MAX, name="x", dtype=dtypes.uints), max_uint),
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
+  (UPat(Ops.MUL, name="x", dtype=dtypes.uint8), x86_uint8_alu),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
@@ -1055,7 +1091,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CONST, name="x", dtype=(dtypes.int16, dtypes.uint16)), lambda ctx, x: [f"mov {ctx.r.assign_i64(x)}, {int(x.arg)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.bool, dtypes.uint8)))),
-      lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
+      lambda ctx, x, addr, src: [f"mov byte ptr [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i8(src)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int, dtypes.uint32)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i32(src)}"]),
@@ -1091,6 +1127,9 @@ def define_reg(ctx, x, src):
   (UPat(Ops.BITCAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=(dtypes.int32, dtypes.uint32)),)),
     lambda ctx, x, a: [f"movd {ctx.r.assign_f32(x)}, {ctx.r.assign_i32(a)}"]),
 
+  (UPat(Ops.CAST, name="x", dtype=dtypes.uint8, src=(UPat(name="a", dtype=dtypes.uint16),)),
+    lambda ctx, x, a: [f"movzx {ctx.r.assign_i64(x)}, {ctx.r.assign(a, reg_type=IReg).render8()}"]),
+
   (UPat(Ops.CAST, name="x", dtype=dtypes.ints, src=(UPat(name="a", dtype=dtypes.ints+(dtypes.bool,)),)),
     lambda ctx, x, a: [f"mov {ctx.r.assign_i64(x)}, {ctx.r.assign_i64(a)}"]),
 

From 0c37169687c6c32f09d2351141a21771abac1a07 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 19:39:51 +0800
Subject: [PATCH 185/188] gemm na on cpu

---
 test/test_ops.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 56512f0eacf25..34e0214961a64 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -1283,7 +1283,7 @@ def test_small_gemm_range(self):
                                                                          np.arange(64,128,dtype=np.float32).reshape(8,8)])
   def test_small_gemm_eye(self):
     helper_test_op(None, lambda x,y: x.matmul(y), lambda x,y: x@y, vals=[np.eye(8).astype(np.float32), np.eye(8).astype(np.float32)])
-  @unittest.skipIf(CI and Device.DEFAULT in ["NV", "LLVM", "GPU", "CUDA"] or IMAGE
+  @unittest.skipIf(CI and Device.DEFAULT in ["NV", "LLVM", "GPU", "CUDA", "ASM"] or IMAGE
   or (Device.DEFAULT == "WEBGPU" and platform.system() == "Windows"), "not supported on these in CI/IMAGE")
   def test_gemm_fp16(self):
     helper_test_op([(64,64), (64,64)], lambda x,y: x.half().matmul(y.half()), atol=5e-3, rtol=5e-3)

From 0531ef1ae4fb8b07d78bc5b4069037846d406c98 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 19:41:03 +0800
Subject: [PATCH 186/188] gemm

---
 test/test_ops.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 34e0214961a64..56512f0eacf25 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -1283,7 +1283,7 @@ def test_small_gemm_range(self):
                                                                          np.arange(64,128,dtype=np.float32).reshape(8,8)])
   def test_small_gemm_eye(self):
     helper_test_op(None, lambda x,y: x.matmul(y), lambda x,y: x@y, vals=[np.eye(8).astype(np.float32), np.eye(8).astype(np.float32)])
-  @unittest.skipIf(CI and Device.DEFAULT in ["NV", "LLVM", "GPU", "CUDA", "ASM"] or IMAGE
+  @unittest.skipIf(CI and Device.DEFAULT in ["NV", "LLVM", "GPU", "CUDA"] or IMAGE
   or (Device.DEFAULT == "WEBGPU" and platform.system() == "Windows"), "not supported on these in CI/IMAGE")
   def test_gemm_fp16(self):
     helper_test_op([(64,64), (64,64)], lambda x,y: x.half().matmul(y.half()), atol=5e-3, rtol=5e-3)

From 2cad65b1e0cfb47dcc4e0092f7db8c189f595ac7 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 19:54:47 +0800
Subject: [PATCH 187/188] f16

---
 test/test_ops_2.py       | 9 ++++-----
 tinygrad/renderer/asm.py | 7 +++++--
 2 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/test/test_ops_2.py b/test/test_ops_2.py
index a0631e67fd3a3..18063516fffab 100644
--- a/test/test_ops_2.py
+++ b/test/test_ops_2.py
@@ -757,12 +757,11 @@ def test_interpolate_bilinear(self):
       lambda x: Tensor.interpolate((10*x).relu().cast('uint8'), size=out_sz, mode="linear"), forward_only=True)
 
   @skipU("MANUAL")
+  def test_gemm_fp16(self):
+    helper_test_op([(64,64), (64,64)], lambda x,y: x.half().matmul(y.half()), atol=5e-3, rtol=5e-3)
+  @skipU("MANUAL")
   def test_manual(self):
-    out_sz = (10, 10)
-    helper_test_op([(2,3,64,64)],
-      lambda x: torch.nn.functional.interpolate((10*x).relu().type(torch.uint8), size=out_sz, mode="bilinear"),
-      lambda x: Tensor.interpolate((10*x).relu().cast('uint8'), size=out_sz, mode="linear"), forward_only=True)
-    pass
+    helper_test_op([(64,64), (64,64)], lambda x,y: x.half().matmul(y.half()), atol=5e-3, rtol=5e-3)
 
 def speedrun(name: str, c: Tensor, repeat: int,) -> np.ndarray:
   res = c.clone().numpy()
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index cd8a77eddba7e..2c6b4cba91506 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -1099,7 +1099,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.int64, dtypes.uint64)))),
       lambda ctx, x, addr, src: [f"mov [{ctx.r.assign_i64(addr)}], {ctx.r.assign_i64(src)}"]),
 
-  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float32))),
+  (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=(dtypes.float32, dtypes.float16)))),
       lambda ctx, x, addr, src: [f"movss [{ctx.r.assign_i64(addr)}], {ctx.r.assign_f32(src)}"]),
 
   (UPat(Ops.STORE, name="x", src=(UPat(name="addr"), UPat(name="src", dtype=dtypes.float64))),
@@ -1115,7 +1115,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.LOAD, name="x", dtype=dtypes.int64, src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"mov {ctx.r.assign_i64(x)}, [{ctx.r.assign_i64(src)}]"]),
 
-  (UPat(Ops.LOAD, name="x", dtype=dtypes.float32, src=(UPat(name="src",),)),
+  (UPat(Ops.LOAD, name="x", dtype=(dtypes.float32, dtypes.float16), src=(UPat(name="src",),)),
      lambda ctx, x, src: [f"movss {ctx.r.assign_f32(x)}, [{ctx.r.assign_i64(src)}]"]),
 
   (UPat(Ops.LOAD, name="x", dtype=dtypes.float64, src=(UPat(name="src",),)),
@@ -1154,6 +1154,9 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CAST, name="x", dtype=dtypes.float64, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"cvtps2pd {ctx.r.assign_f64(x)}, {ctx.r.assign_f32(a)}"]),
 
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float16, src=(UPat(name="a", dtype=dtypes.float32),)),
+    lambda ctx, x, a: [f"vcvtps2ph {ctx.r.assign(x, reg_type=FReg).render32()}, {ctx.r.assign_f32(a)}, 0"]),
+
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([

From f7c689f4bd5867e0ff03487f981ebad72cdcc9c4 Mon Sep 17 00:00:00 2001
From: root <root@localhost>
Date: Tue, 5 Aug 2025 20:22:27 +0800
Subject: [PATCH 188/188] fp16 limited support

---
 test/test_ops.py         |  3 +-
 tinygrad/renderer/asm.py | 66 ++++++++++++++++++++++++++++++++++++++++
 2 files changed, 68 insertions(+), 1 deletion(-)

diff --git a/test/test_ops.py b/test/test_ops.py
index 56512f0eacf25..c0023c18fbec7 100644
--- a/test/test_ops.py
+++ b/test/test_ops.py
@@ -1284,7 +1284,8 @@ def test_small_gemm_range(self):
   def test_small_gemm_eye(self):
     helper_test_op(None, lambda x,y: x.matmul(y), lambda x,y: x@y, vals=[np.eye(8).astype(np.float32), np.eye(8).astype(np.float32)])
   @unittest.skipIf(CI and Device.DEFAULT in ["NV", "LLVM", "GPU", "CUDA"] or IMAGE
-  or (Device.DEFAULT == "WEBGPU" and platform.system() == "Windows"), "not supported on these in CI/IMAGE")
+  or (Device.DEFAULT == "WEBGPU" and platform.system() == "Windows")
+  or (Device.DEFAULT == "ASM"), "not supported on these in CI/IMAGE")
   def test_gemm_fp16(self):
     helper_test_op([(64,64), (64,64)], lambda x,y: x.half().matmul(y.half()), atol=5e-3, rtol=5e-3)
   def test_gemm(self):
diff --git a/tinygrad/renderer/asm.py b/tinygrad/renderer/asm.py
index 2c6b4cba91506..e359173940964 100644
--- a/tinygrad/renderer/asm.py
+++ b/tinygrad/renderer/asm.py
@@ -505,6 +505,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
 
 AluOps = _AluOps({
   (Ops.ADD, ArchType.X86, IReg): "add",
+  (Ops.ADD, ArchType.X86, FReg, 16): "vaddsh",
   (Ops.ADD, ArchType.X86, FReg, 32): "addss",
   (Ops.ADD, ArchType.X86, FReg, 64): "addsd",
   (Ops.ADD, ArchType.ARM, IReg): "add",
@@ -512,6 +513,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
   (Ops.SUB, ArchType.ARM, IReg): "sub",
   (Ops.SUB, ArchType.ARM, FReg): "fsub",
   (Ops.MUL, ArchType.X86, IReg): "imul",
+  (Ops.MUL, ArchType.X86, FReg, 16): "vmulsh",
   (Ops.MUL, ArchType.X86, FReg, 32): "mulss",
   (Ops.MUL, ArchType.X86, FReg, 64): "mulsd",
   (Ops.MUL, ArchType.ARM, IReg): "mul",
@@ -540,6 +542,7 @@ def get(self, key_tuple: tuple[Union[ArchType, Ops, type[RegBase], int], ...]) -
 
 def alu(ctx, x):
   dtype = x.src[0].dtype
+  assert x.dtype != dtypes.float16
   reg_type = IReg if dtypes.is_int(dtype) or dtypes.is_bool(dtype) else FReg
   src_regs = ctx.r.assign_multiple(list(x.src), reg_type)
 
@@ -605,6 +608,14 @@ def x86_uint8_alu(ctx, x):
           *mov2,
           ]
 
+def x86_alu_half(ctx, x):
+  reg_type = FReg
+  dst, *src_regs = ctx.r.assign_multiple([x] + list(x.src), reg_type)
+  operator = AluOps.get((x.op, Arch.arch, reg_type, 16))
+  src_strs =  ', '.join([r.render64() for r in src_regs])
+  ret = [f"{operator} {dst}, {src_strs}"]
+  return ret
+
 def acc(ctx, x, acc, src):
   dtype = x.src[0].dtype
   reg_type = FReg if dtypes.is_float(acc.dtype) else IReg
@@ -1051,6 +1062,57 @@ def define_reg(ctx, x, src):
   acc, src = ctx.r.assign_multiple([x, src], reg_type=reg_type)
   return [f"{op} {acc.render(size1)}, {src.render(size2)}"]
 
+def x86_cast_half2f32(ctx, x, a):
+  vars_holding_xmm1 = ctx.r.find_vars_holding_reg(FReg(1))
+  for var in vars_holding_xmm1:
+    if var.stack is None:
+      ctx.r.stack_size += (var.reg.size // 8)
+      var.stack = ctx.r.stack_size
+    ctx.r.kernel.extend(var.store())
+    var.reg = None
+    ctx.r.pools[FReg].release_reg(FReg(1), var)
+  vars_holding_xmm2 = ctx.r.find_vars_holding_reg(FReg(2))
+  for var in vars_holding_xmm2:
+    if var.stack is None:
+      ctx.r.stack_size += (var.reg.size // 8)
+      var.stack = ctx.r.stack_size
+    ctx.r.kernel.extend(var.store())
+    var.reg = None
+    ctx.r.pools[FReg].release_reg(FReg(2), var)
+  mov2 = []
+  dst, src = ctx.r.assign_multiple([x, a], reg_type=FReg, 
+                                   excludes=[FReg(1), FReg(2)])
+  if len(vars_holding_xmm1) >= 1:
+    var0 = vars_holding_xmm1[0]
+    mov2.extend([
+      *move_reg_mem("ldr", FReg(1), var0.stack, 8)
+    ])
+    for var in vars_holding_xmm1:
+      if var.reg is not None:
+        ctx.r.pools[FReg].release_reg(var.reg, var)
+        if var.reg not in ctx.r.pools[FReg]._acquired:
+          ctx.r.pools[FReg].insert(0, var.reg)
+      var.reg = FReg(1)
+      ctx.r.pools[FReg].acquire_reg(FReg(1), var)
+  if len(vars_holding_xmm2) >= 1:
+    var0 = vars_holding_xmm2[0]
+    mov2.extend([
+      *move_reg_mem("ldr", FReg(2), var0.stack, 8)
+    ])
+    for var in vars_holding_xmm2:
+      if var.reg is not None:
+        ctx.r.pools[FReg].release_reg(var.reg, var)
+        if var.reg not in ctx.r.pools[FReg]._acquired:
+          ctx.r.pools[FReg].insert(0, var.reg)
+      var.reg = FReg(2)
+      ctx.r.pools[FReg].acquire_reg(FReg(2), var)
+  return [
+    f"movss xmm2, {src}",
+    f"vcvtph2ps xmm1, xmm2",
+    f"movss {dst}, xmm1",
+    *mov2
+    ]
+
 complex_rewrites = PatternMatcher([
   (UPat(Ops.DEFINE_REG, name="x", src=(UPat(name="src"),), allow_any_len=True), define_reg),
   (UPat(Ops.LOAD, name="x", src=(
@@ -1062,6 +1124,7 @@ def define_reg(ctx, x, src):
   (UPat(Ops.RECIP, name="x"), recip), 
   (UPat(Ops.WHERE, name="x"), _where),
   (UPat(Ops.MUL, name="x", dtype=dtypes.uint8), x86_uint8_alu),
+  (UPat(GroupOp.ALU, name="x", dtype=dtypes.float16), x86_alu_half),
   (UPat(GroupOp.ALU, name="x"), alu),
   (UPat(Ops.ASSIGN, name="x"), assign),
   (UPat(Ops.INDEX, name="x"), _index),
@@ -1157,6 +1220,9 @@ def define_reg(ctx, x, src):
   (UPat(Ops.CAST, name="x", dtype=dtypes.float16, src=(UPat(name="a", dtype=dtypes.float32),)),
     lambda ctx, x, a: [f"vcvtps2ph {ctx.r.assign(x, reg_type=FReg).render32()}, {ctx.r.assign_f32(a)}, 0"]),
 
+  (UPat(Ops.CAST, name="x", dtype=dtypes.float32, src=(UPat(name="a", dtype=dtypes.float16),)),
+   x86_cast_half2f32)
+
 ]) + complex_rewrites
 
 arm_rewrite = PatternMatcher([