simx sparsity NT=16 support

EricSongXinLe · EricSongXinLe · commit c338a03c8875 · 2026-03-14T02:38:40.000-07:00
Port RTLSim NT=16 sparse WMMA behavior into SIMX.

  This updates SIMX decode to generate the RTL-style NT=16 sparse
  uops, adds instruction-local thread masks for sparse MMA execution,
  and enables the tensor-unit sparse data path for NT=16. Sparse B
  indexing now matches the RTL column-pair wrap behavior.

  Also add SIMX regression coverage for NT=16 sparse TCU cases.
diff --git a/ci/regression.sh.in b/ci/regression.sh.in
@@ -623,6 +623,31 @@ tensor_sp()
     make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=8 -DITYPE=bf8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu_sp
     CONFIGS="-DNUM_THREADS=8 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m8 -n8 -k32"
 
+    # simx tests (NT=16)
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=int8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k32"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=uint8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k32"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=int4 -DOTYPE=int32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k64"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=uint4 -DOTYPE=int32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k64"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=fp16 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k16"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=bf16 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k16"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=fp8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k32"
+
+    make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=16 -DITYPE=bf8 -DOTYPE=fp32" make -C tests/regression/sgemm_tcu_sp
+    CONFIGS="-DNUM_THREADS=16 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n8 -k32"
+
     # simx tests (NT=32)
     make -C tests/regression/sgemm_tcu_sp clean && CONFIGS="-DNUM_THREADS=32 -DITYPE=int8 -DOTYPE=int32" make -C tests/regression/sgemm_tcu_sp
     CONFIGS="-DNUM_THREADS=32 -DEXT_TCU_ENABLE -DTCU_SPARSE_ENABLE" ./ci/blackbox.sh --driver=simx --app=sgemm_tcu_sp --args="-m16 -n16 -k64"
diff --git a/sim/simx/decode.cpp b/sim/simx/decode.cpp
@@ -1191,7 +1191,7 @@ void Emulator::decode(uint32_t code, uint32_t wid, uint64_t uuid) {
         if (is_sparse) {
           // Sparse mode uses the packed sparse-A register layout from vx_tensor.h
           // and a synthesized metadata phase, matching the RTL uop expansion.
-#if (NUM_THREADS != 8) && (NUM_THREADS != 32)
+#if (NUM_THREADS != 8) && (NUM_THREADS != 16) && (NUM_THREADS != 32)
           std::abort();
 #else
           constexpr uint32_t sparse_k_steps = cfg::k_steps / 2;
@@ -1203,9 +1203,6 @@ void Emulator::decode(uint32_t code, uint32_t wid, uint64_t uuid) {
           if ((cfg::k_steps % 2) != 0) {
             std::abort();
           }
-          if (cfg::nt16_sparse) {
-            std::abort();
-          }
           if ((cfg::b_block_size_sp == 0) || (NUM_THREADS % cfg::b_block_size_sp) != 0) {
             std::abort();
           }
@@ -1215,7 +1212,10 @@ void Emulator::decode(uint32_t code, uint32_t wid, uint64_t uuid) {
           }
 
           uint32_t steps = 0;
-          uint32_t steps_count = num_meta_cols + (cfg::m_steps * cfg::n_steps * sparse_k_steps);
+          uint32_t sparse_mma_steps = cfg::nt16_sparse
+                                    ? (cfg::m_steps * cfg::n_steps * cfg::k_steps)
+                                    : (cfg::m_steps * cfg::n_steps * sparse_k_steps);
+          uint32_t steps_count = num_meta_cols + sparse_mma_steps;
           uint32_t steps_shift = (steps_count > 1) ? (32 - log2ceil(steps_count)) : 0;
           uint32_t uuid_hi = (uuid >> 32) & 0xffffffff;
           uint32_t uuid_lo = uuid & 0xffffffff;
@@ -1233,24 +1233,53 @@ void Emulator::decode(uint32_t code, uint32_t wid, uint64_t uuid) {
             ibuffer.push_back(instr);
           }
 
-          for (uint32_t k = 0; k < sparse_k_steps; ++k) {
-            for (uint32_t m = 0; m < cfg::m_steps; ++m) {
-              for (uint32_t n = 0; n < cfg::n_steps; ++n) {
-                uint32_t reg_rs1 = ra_base + (m / cfg::a_sub_blocks) * sparse_k_steps + k;
-                uint32_t reg_rs2 = rb_base + (k * cfg::n_steps + n) / cfg::b_sub_blocks_sp;
-                uint32_t reg_rs3 = rc_base + m * cfg::n_steps + n;
-                uint32_t uuid_lo_x = (steps << steps_shift) | uuid_lo;
-                uint64_t uuid_x = (static_cast<uint64_t>(uuid_hi) << 32) | uuid_lo_x;
-                ++steps;
-                auto instr = std::allocate_shared<Instr>(instr_pool_, uuid_x, FUType::TCU);
-                instr->setOpType(tcu_type);
-                instr->setArgs(IntrTcuArgs{fmt_s, fmt_d, m, n, k});
-                instr->setDestReg(reg_rs3, RegType::Float);
-                instr->setSrcReg(0, reg_rs1, RegType::Float);
-                instr->setSrcReg(1, reg_rs2, RegType::Float);
-                instr->setSrcReg(2, reg_rs3, RegType::Float);
-                instr->setParentUUID(uuid);
-                ibuffer.push_back(instr);
+          if (cfg::nt16_sparse) {
+            constexpr uint32_t lg_n = (cfg::n_steps > 1) ? log2ceil(cfg::n_steps) : 0;
+            constexpr uint32_t lg_k = (cfg::k_steps > 1) ? log2ceil(cfg::k_steps) : 0;
+            constexpr uint32_t sparse_step_bits = lg_n + lg_k;
+            constexpr uint32_t sparse_step_mask = (sparse_step_bits != 0) ? ((1u << sparse_step_bits) - 1) : 0;
+            constexpr uint32_t tmask_even = 0x3333;
+            constexpr uint32_t tmask_odd  = 0xCCCC;
+            for (uint32_t eff_ctr = 0; eff_ctr < sparse_mma_steps; ++eff_ctr) {
+              uint32_t n_sp = (sparse_step_bits != 0) ? (eff_ctr & sparse_step_mask) : 0;
+              uint32_t m_sp = eff_ctr >> sparse_step_bits;
+              uint32_t reg_rs1 = ra_base + m_sp;
+              uint32_t reg_rs2 = rb_base + n_sp;
+              uint32_t reg_rs3 = rc_base + (eff_ctr >> 1);
+              uint32_t uuid_lo_x = (steps << steps_shift) | uuid_lo;
+              uint64_t uuid_x = (static_cast<uint64_t>(uuid_hi) << 32) | uuid_lo_x;
+              ++steps;
+              auto instr = std::allocate_shared<Instr>(instr_pool_, uuid_x, FUType::TCU);
+              instr->setOpType(tcu_type);
+              instr->setArgs(IntrTcuArgs{fmt_s, fmt_d, m_sp, n_sp, 0});
+              instr->setDestReg(reg_rs3, RegType::Float);
+              instr->setSrcReg(0, reg_rs1, RegType::Float);
+              instr->setSrcReg(1, reg_rs2, RegType::Float);
+              instr->setSrcReg(2, reg_rs3, RegType::Float);
+              instr->setTmask(ThreadMask(NUM_THREADS, (eff_ctr & 1) ? tmask_odd : tmask_even));
+              instr->setParentUUID(uuid);
+              ibuffer.push_back(instr);
+            }
+          } else {
+            for (uint32_t k = 0; k < sparse_k_steps; ++k) {
+              for (uint32_t m = 0; m < cfg::m_steps; ++m) {
+                for (uint32_t n = 0; n < cfg::n_steps; ++n) {
+                  uint32_t reg_rs1 = ra_base + (m / cfg::a_sub_blocks) * sparse_k_steps + k;
+                  uint32_t reg_rs2 = rb_base + (k * cfg::n_steps + n) / cfg::b_sub_blocks_sp;
+                  uint32_t reg_rs3 = rc_base + m * cfg::n_steps + n;
+                  uint32_t uuid_lo_x = (steps << steps_shift) | uuid_lo;
+                  uint64_t uuid_x = (static_cast<uint64_t>(uuid_hi) << 32) | uuid_lo_x;
+                  ++steps;
+                  auto instr = std::allocate_shared<Instr>(instr_pool_, uuid_x, FUType::TCU);
+                  instr->setOpType(tcu_type);
+                  instr->setArgs(IntrTcuArgs{fmt_s, fmt_d, m, n, k});
+                  instr->setDestReg(reg_rs3, RegType::Float);
+                  instr->setSrcReg(0, reg_rs1, RegType::Float);
+                  instr->setSrcReg(1, reg_rs2, RegType::Float);
+                  instr->setSrcReg(2, reg_rs3, RegType::Float);
+                  instr->setParentUUID(uuid);
+                  ibuffer.push_back(instr);
+                }
               }
             }
           }
diff --git a/sim/simx/emulator.h b/sim/simx/emulator.h
@@ -132,7 +132,7 @@ class Emulator {
 
   instr_trace_t* execute(const Instr &instr, uint32_t wid);
 
-  void fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint32_t src_index, const RegOpd& reg);
+  void fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint32_t src_index, const RegOpd& reg, const ThreadMask& tmask);
 
   void icache_read(void* data, uint64_t addr, uint32_t size);
 
diff --git a/sim/simx/execute.cpp b/sim/simx/execute.cpp
@@ -48,10 +48,10 @@ inline int64_t check_boxing(int64_t a) {
   return nan_box(0x7fc00000); // NaN
 }
 
-void Emulator::fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint32_t src_index, const RegOpd& reg) {
+void Emulator::fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint32_t src_index, const RegOpd& reg, const ThreadMask& tmask) {
   __unused(src_index);
   auto& warp = warps_.at(wid);
-  uint32_t num_threads = warp.tmask.size();
+  uint32_t num_threads = tmask.size();
   out.resize(num_threads);
   switch (reg.type) {
   case RegType::None:
@@ -60,7 +60,7 @@ void Emulator::fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint3
     DPH(2, "Src" << src_index << " Reg: " << reg << "={");
     for (uint32_t t = 0; t < num_threads; ++t) {
       if (t) DPN(2, ", ");
-      if (!warp.tmask.test(t)) {
+      if (!tmask.test(t)) {
         DPN(2, "-");
         continue;
       }
@@ -74,7 +74,7 @@ void Emulator::fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint3
     auto& reg_data = warp.ireg_file.at(reg.idx);
     for (uint32_t t = 0; t < num_threads; ++t) {
       if (t) DPN(2, ", ");
-      if (!warp.tmask.test(t)) {
+      if (!tmask.test(t)) {
         DPN(2, "-");
         continue;
       }
@@ -89,7 +89,7 @@ void Emulator::fetch_registers(std::vector<reg_data_t>& out, uint32_t wid, uint3
     auto& reg_data = warp.freg_file.at(reg.idx);
     for (uint32_t t = 0; t < num_threads; ++t) {
       if (t) DPN(2, ", ");
-      if (!warp.tmask.test(t)) {
+      if (!tmask.test(t)) {
         DPN(2, "-");
         continue;
       }
@@ -124,6 +124,8 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
   auto rsrc2  = instr.getSrcReg(2);
 
   auto num_threads = arch_.num_threads();
+  auto exec_tmask = instr.hasTmask() ? (warp.tmask & instr.getTmask()) : warp.tmask;
+  auto operand_tmask = warp.tmask;
 
   // create instruction trace
   auto trace_alloc = core_->trace_pool().allocate(1);
@@ -133,7 +135,7 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
   trace->cid      = core_->id();
   trace->wid      = wid;
   trace->PC       = warp.PC;
-  trace->tmask    = warp.tmask;
+  trace->tmask    = exec_tmask;
   trace->dst_reg  = rdest;
   trace->src_regs = {rsrc0, rsrc1, rsrc2};
 
@@ -143,27 +145,27 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
   std::vector<reg_data_t> rs3_data;
 
   if (instr.is_uop()) {
-    DP(1, "Instr: " << instr << ", cid=" << core_->id() << ", wid=" << wid << ", tmask=" << warp.tmask
+    DP(1, "Instr: " << instr << ", cid=" << core_->id() << ", wid=" << wid << ", tmask=" << exec_tmask
           << ", PC=0x" << std::hex << warp.PC << std::dec << ", parent=#" << instr.getParentUUID() << " (#" << instr.getUUID() << ")");
   } else {
-    DP(1, "Instr: " << instr << ", cid=" << core_->id() << ", wid=" << wid << ", tmask=" << warp.tmask
+    DP(1, "Instr: " << instr << ", cid=" << core_->id() << ", wid=" << wid << ", tmask=" << exec_tmask
           << ", PC=0x" << std::hex << warp.PC << std::dec << " (#" << instr.getUUID() << ")");
   }
 
   // fetch register values
-  if (rsrc0.type != RegType::None) fetch_registers(rs1_data, wid, 0, rsrc0);
-  if (rsrc1.type != RegType::None) fetch_registers(rs2_data, wid, 1, rsrc1);
-  if (rsrc2.type != RegType::None) fetch_registers(rs3_data, wid, 2, rsrc2);
+  if (rsrc0.type != RegType::None) fetch_registers(rs1_data, wid, 0, rsrc0, operand_tmask);
+  if (rsrc1.type != RegType::None) fetch_registers(rs2_data, wid, 1, rsrc1, operand_tmask);
+  if (rsrc2.type != RegType::None) fetch_registers(rs3_data, wid, 2, rsrc2, operand_tmask);
 
   uint32_t thread_start = 0;
   for (; thread_start < num_threads; ++thread_start) {
-    if (warp.tmask.test(thread_start))
+    if (exec_tmask.test(thread_start))
       break;
   }
 
   int32_t thread_last = num_threads - 1;
   for (; thread_last >= 0; --thread_last) {
-    if (warp.tmask.test(thread_last))
+    if (exec_tmask.test(thread_last))
       break;
   }
 
@@ -1601,21 +1603,22 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
       case TcuType::WMMA: {
         auto trace_data = std::make_shared<TensorUnit::ExeTraceData>();
         trace->data = trace_data;
-        assert(warp.tmask.count() == num_threads);
+        assert(operand_tmask.count() == num_threads);
         core_->tensor_unit()->wmma(wid, tpuArgs.fmt_s, tpuArgs.fmt_d, tpuArgs.step_m, tpuArgs.step_n, tpuArgs.step_k, rs1_data, rs2_data, rs3_data, rd_data, trace_data.get());
         rd_write = true;
       } break;
       case TcuType::WMMA_SP: {
         auto trace_data = std::make_shared<TensorUnit::ExeTraceData>();
         trace->data = trace_data;
-        assert(warp.tmask.count() == num_threads);
+        assert(operand_tmask.count() == num_threads);
+        assert(exec_tmask.any());
         core_->tensor_unit()->wmma_sp(wid, tpuArgs.fmt_s, tpuArgs.fmt_d, tpuArgs.step_m, tpuArgs.step_n, tpuArgs.step_k, rs1_data, rs2_data, rs3_data, rd_data, trace_data.get());
         rd_write = true;
       } break;
       case TcuType::META_STORE: {
         auto trace_data = std::make_shared<TensorUnit::ExeTraceData>();
         trace->data = trace_data;
-        assert(warp.tmask.count() == num_threads);
+        assert(operand_tmask.count() == num_threads);
         core_->tensor_unit()->meta_store(wid, tpuArgs.fmt_s, tpuArgs.fmt_d, rs1_data, trace_data.get());
       } break;
       default:
@@ -1635,7 +1638,7 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
         DPH(2, "Dest Reg: " << rdest << "={");
         for (uint32_t t = 0; t < num_threads; ++t) {
           if (t) DPN(2, ", ");
-          if (!warp.tmask.test(t)) {
+          if (!exec_tmask.test(t)) {
             DPN(2, "-");
             continue;
           }
@@ -1652,7 +1655,7 @@ instr_trace_t* Emulator::execute(const Instr &instr, uint32_t wid) {
       DPH(2, "Dest Reg: " << rdest << "={");
       for (uint32_t t = 0; t < num_threads; ++t) {
         if (t) DPN(2, ", ");
-        if (!warp.tmask.test(t)) {
+        if (!exec_tmask.test(t)) {
           DPN(2, "-");
           continue;
         }
diff --git a/sim/simx/instr.h b/sim/simx/instr.h
@@ -155,6 +155,11 @@ class Instr {
     args_ = static_cast<T>(args);
   }
 
+  void setTmask(const ThreadMask& tmask) {
+    tmask_ = tmask;
+    has_tmask_ = true;
+  }
+
   void setDestReg(uint32_t destReg, RegType type) {
     rdest_ = {type, destReg };
   }
@@ -186,6 +191,14 @@ class Instr {
     return is_uop_;
   }
 
+  bool hasTmask() const {
+    return has_tmask_;
+  }
+
+  const ThreadMask& getTmask() const {
+    return tmask_;
+  }
+
 private:
 
   uint64_t uuid_;
@@ -196,8 +209,10 @@ class Instr {
   RegOpd   rsrc_[MAX_REG_SOURCES];
   RegOpd   rdest_;
   bool     is_uop_;
+  ThreadMask tmask_;
+  bool     has_tmask_ = false;
 
   friend std::ostream &operator<<(std::ostream &, const Instr &);
 };
 
-}
+}
diff --git a/sim/simx/tensor_unit.cpp b/sim/simx/tensor_unit.cpp
@@ -681,7 +681,7 @@ class TensorUnit::Impl {
 
     auto fedp = select_FEDP(fmt_s, fmt_d);
 
-    if (cfg::nt16_sparse || (this->arch_.num_threads() != 8 && this->arch_.num_threads() != 32)) {
+    if (this->arch_.num_threads() != 8 && this->arch_.num_threads() != 16 && this->arch_.num_threads() != 32) {
       std::cout << "Error: WMMA_SP unsupported for NUM_THREADS=" << this->arch_.num_threads() << std::endl;
       std::abort();
     }
@@ -732,8 +732,9 @@ class TensorUnit::Impl {
             uint32_t off = bit_idx % 32;
             return (sparse_meta_.at(wid).at(bank * kMaxMetaCols + col) >> off) & 1u;
           };
-          auto bword1 = rs2_data.at(b_off + j * cfg::tcK * kCompression + z * kCompression + 0).u32;
-          auto bword2 = rs2_data.at(b_off + j * cfg::tcK * kCompression + z * kCompression + 1).u32;
+          uint32_t j_sp = cfg::nt16_sparse ? (j % (cfg::tcN / 2)) : j;
+          auto bword1 = rs2_data.at(b_off + j_sp * cfg::tcK * kCompression + z * kCompression + 0).u32;
+          auto bword2 = rs2_data.at(b_off + j_sp * cfg::tcK * kCompression + z * kCompression + 1).u32;
           uint32_t b_gathered = 0;
           if (is_16bit_sparse_fmt) {
             uint8_t mask_lo = 0;