accel-sim · JRPan · Jan 25, 2026 · Jul 13, 2025 · Oct 7, 2025 · Oct 7, 2025
diff --git a/.github/workflows/test-build.yml b/.github/workflows/test-build.yml
@@ -30,6 +30,7 @@ jobs:
         run: |
              git config --global --add safe.directory /__w/gpu-app-collection/gpu-app-collection
              git submodule update --init -- src/cuda/cuda-samples
+             git submodule update --init -- src/cuda/cutlass-bench
              /bin/bash test-build.sh ci
 
       - name: Print Successful Apps

diff --git a/.gitignore b/.gitignore
@@ -15,4 +15,13 @@ src/cuda/rodinia/3.1/cuda/particlefilter/particlefilter_naive
 src/cuda/rodinia/3.1/cuda/pathfinder/pathfinder
 4.2
 .venv/
-__pycache__/
+__pycache__/
+compile_commands.json
+.cache/
+tmp/
+
+# Ignoring files without extension (but keep Makefile and files with extensions)
+src/cuda/GPU_Microbenchmark/ubench/**/*
+!src/cuda/GPU_Microbenchmark/ubench/**/*/
+!src/cuda/GPU_Microbenchmark/ubench/**/*.*
+!src/cuda/GPU_Microbenchmark/ubench/**/Makefile
diff --git a/src/Makefile b/src/Makefile
@@ -109,8 +109,6 @@ GPU_Microbenchmark:
 	mkdir -p $(BINDIR)/$(BINSUBDIR)/
 	$(SETENV) $(MAKE) $(MAKE_ARGS) -C cuda/GPU_Microbenchmark
 	mv cuda/GPU_Microbenchmark/bin/* $(BINDIR)/$(BINSUBDIR)/
-clean_GPU_Microbenchmark:
-	find cuda/GPU_Microbenchmark/ubench -type f -executable -delete
 
 
 Deepbench_nvidia:
@@ -540,22 +538,23 @@ clean_shoc:
 	cd cuda/shoc-master/; $(MAKE) clean; $(MAKE) distclean
 
 clean_parboil:
-	$(SETENV) cd cuda/parboil; ./parboil clean cutcp cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean bfs cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean histo cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean lbm cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean mri-gridding cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean mri-q cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean sad cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean sgemm cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean spmv cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean stencil cuda
-	$(SETENV) cd cuda/parboil; ./parboil clean tpacf cuda
+# Commented out as parboil uses Python2
+# $(SETENV) cd cuda/parboil; ./parboil clean cutcp cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean bfs cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean histo cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean lbm cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean mri-gridding cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean mri-q cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean sad cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean sgemm cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean spmv cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean stencil cuda
+# $(SETENV) cd cuda/parboil; ./parboil clean tpacf cuda
 
 clean_parboil_hw_power:
-	$(SETENV) cd cuda/parboil; ./parboil clean mri-q cuda_k1
-	$(SETENV) cd cuda/parboil; ./parboil clean sad cuda_k1
-	$(SETENV) cd cuda/parboil; ./parboil clean sgemm cuda_k1
+# $(SETENV) cd cuda/parboil; ./parboil clean mri-q cuda_k1
+# $(SETENV) cd cuda/parboil; ./parboil clean sad cuda_k1
+# $(SETENV) cd cuda/parboil; ./parboil clean sgemm cuda_k1
 
 clean_lonestargpu-2.0:
 	$(setenv) $(MAKE) $(make_args) noinline=$(noinline) -C cuda/lonestargpu-2.0 clean
@@ -698,4 +697,7 @@ clean_cuda_samples:
 	$(MAKE) clean -C ./cuda/cuda-samples/build
 
 clean_huggingface:
-	rm -rf $(BINDIR)/$(BINSUBDIR)/huggingface
+	rm -rf $(BINDIR)/$(BINSUBDIR)/huggingface
+
+clean_GPU_Microbenchmark:
+	$(MAKE) clean -C ./cuda/GPU_Microbenchmark
diff --git a/src/cuda/GPU_Microbenchmark/.gitignore b/src/cuda/GPU_Microbenchmark/.gitignore
@@ -1,3 +1,5 @@
 bin/
 *.o
 *.out
+*.a
+*.ptx
diff --git a/src/cuda/GPU_Microbenchmark/common/common.mk b/src/cuda/GPU_Microbenchmark/common/common.mk
@@ -9,16 +9,42 @@ CC := nvcc
 
 LIB :=
 
-release:
-	$(CC) $(NVCC_FLAGS) $(CUOPTS) $(SRC) -o $(EXE) -I$(INCLUDE) -L$(LIB) -lcudart
+# Generate object file list from SRC (for parallel compilation)
+CUDA_SRC_FILES := $(filter %.cu, $(SRC))
+CPP_SRC_FILES := $(filter %.cpp, $(SRC))
+C_SRC_FILES := $(filter %.c, $(SRC))
+
+# To preserve PTX in multi-step compilation, we have to compile the CUDA source files to .a files
+CUDA_LIB_FILES := $(CUDA_SRC_FILES:.cu=.a)
+
+# Host side source files
+CPP_OBJECT_FILES := $(CPP_SRC_FILES:.cpp=.o)
+C_OBJECT_FILES := $(C_SRC_FILES:.c=.o)
+OBJECT_FILES := $(CPP_OBJECT_FILES) $(C_OBJECT_FILES)
+
+# If multiple source files are provided, compile them separately and link
+# To preserve PTX in final binary: First create static library, then link to executable
+# This avoids nvlink stripping PTX during device linking
+release: $(CUDA_LIB_FILES) $(OBJECT_FILES)
+	$(CC) $(NVCC_FLAGS) $^ -o $(EXE) -L$(LIB) -lcudart --cudart shared
 	mv $(EXE) $(BIN_DIR)
 
+# Pattern rule for compiling individual .cu files to .o files
+%.a: %.cu
+	$(CC) $(NVCC_FLAGS) $(INCLUDE) $(CUOPTS) --lib $< -o $@
+
+%.o: %.cpp
+	$(CC) $(NVCC_FLAGS) $(INCLUDE) $(CUOPTS) -dc $< -o $@
+
+%.o: %.c
+	$(CC) $(NVCC_FLAGS) $(INCLUDE) $(CUOPTS) -dc $< -o $@
+
 tuner:
-	$(CC) $(NVCC_FLAGS) $(CUOPTS) -DTUNER $(SRC) -o $(EXE) -I$(INCLUDE) -L$(LIB) -lcudart
+	$(CC) $(NVCC_FLAGS) $(CUOPTS) -DTUNER $(SRC) -o $(EXE) $(INCLUDE) -L$(LIB) -lcudart --cudart shared
 	mv $(EXE) $(BIN_DIR)
 
 clean:
-	rm -f *.o; rm -f $(EXE)
+	rm -f *.o *.a *.ptx *.sass $(OBJECTS) $(CUDA_LIB_FILES); rm -f $(EXE) $(LIB_FILE)
 
 run:
 	./$(EXE)
@@ -36,7 +62,7 @@ nvsight:
 	nv-nsight-cu-cli --metrics gpc__cycles_elapsed.avg,sm__cycles_elapsed.sum,smsp__inst_executed.sum,sm__warps_active.avg.pct_of_peak_sustained_active,l1tex__t_sectors_pipe_lsu_mem_global_op_ld_lookup_hit.sum,l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum,l1tex__t_sectors_pipe_lsu_mem_global_op_st_lookup_hit.sum,l1tex__t_sectors_pipe_lsu_mem_global_op_st.sum,lts__t_sectors_srcunit_tex_op_read.sum,lts__t_sectors_srcunit_tex_op_write.sum,lts__t_sectors_srcunit_tex_op_read_lookup_hit.sum,lts__t_sectors_srcunit_tex_op_write_lookup_hit.sum,lts__t_sector_op_read_hit_rate.pct,lts__t_sector_op_write_hit_rate.pct,lts__t_sectors_srcunit_tex_op_read.sum.per_second,dram__sectors_read.sum,dram__sectors_write.sum,dram__bytes_read.sum  --csv --page raw ./$(EXE) | tee nsight.csv
 
 ptx:
-	cuobjdump -ptx ./$(EXE)  tee ptx.txt
+	cuobjdump -ptx ./$(EXE) | tee $(EXE).ptx
 
 sass:
-	cuobjdump -sass ./$(EXE)  tee sass.txt
+	cuobjdump -sass ./$(EXE) | tee $(EXE).sass
diff --git a/src/cuda/GPU_Microbenchmark/hw_def/common/common.h b/src/cuda/GPU_Microbenchmark/hw_def/common/common.h
@@ -22,7 +22,7 @@ enum dram_model { GDDR5 = 1, GDDR5X = 2, GDDR6 = 3, HBM = 4 };
 
 // source:
 // https://stackoverflow.com/questions/466204/rounding-up-to-next-power-of-2
-unsigned round_up_2n(unsigned v) {
+inline unsigned round_up_2n(unsigned v) {
   v--;
   v |= v >> 1;
   v |= v >> 2;
@@ -34,9 +34,9 @@ unsigned round_up_2n(unsigned v) {
   return v;
 }
 
-unsigned round_up_2n(float n) { return round_up_2n((unsigned)ceil(n)); }
+inline unsigned round_up_2n(float n) { return round_up_2n((unsigned)ceil(n)); }
 
-bool isPowerOfTwo(int n) {
+inline bool isPowerOfTwo(int n) {
   if (n == 0)
     return false;
 
@@ -51,12 +51,12 @@ static const unsigned dram_model_burst_length[] = {0, 8, 8, 16, 2};
 static const unsigned dram_model_freq_ratio[] = {0, 4, 4, 4, 2};
 // atom size =
 // dram_model_channel_width*dram_model_mem_per_ctrlr*dram_model_burst_length
-unsigned get_atom_size_inByte(enum dram_model model) {
+inline unsigned get_atom_size_inByte(enum dram_model model) {
   return (dram_model_bus_width[model] / 8) * dram_model_mem_per_ctrlr[model] *
          dram_model_burst_length[model];
 }
 // CCD = dram_model_burst_length/dram_model_freq_ratio
-unsigned get_adjusted_CCD(enum dram_model model) {
+inline unsigned get_adjusted_CCD(enum dram_model model) {
   assert(dram_model_burst_length[model] % dram_model_freq_ratio[model] == 0);
   return dram_model_burst_length[model] / dram_model_freq_ratio[model];
 }

diff --git a/src/cuda/GPU_Microbenchmark/hw_def/common/gpuConfig.h b/src/cuda/GPU_Microbenchmark/hw_def/common/gpuConfig.h
@@ -45,7 +45,7 @@ struct GpuConfig
     unsigned FBP_COUNT = 0;           // Frame Buffer Partitions
     unsigned L2_BANKS = 0;            // L2 Cache Banks (LTCs)
 };
-GpuConfig config;
+inline GpuConfig config;
 // Parses short flags like --sm 80 into a GpuConfig object
 inline void parseGpuConfigArgs(int argc, char *argv[])
 {
@@ -158,7 +158,7 @@ inline void gpuAssert(cudaError_t code, const char *file, int line,
     }
 }
 
-cudaDeviceProp deviceProp;
+inline cudaDeviceProp deviceProp;
 
 // NVIDIA RM API defines
 #define NV_IOCTL_MAGIC 'F'
@@ -237,7 +237,7 @@ inline unsigned queryGrInfo(uint32_t info_index)
     return result;
 }
 
-unsigned intilizeDeviceProp(unsigned deviceID, int argc, char *argv[])
+inline unsigned initializeDeviceProp(unsigned deviceID, int argc, char *argv[])
 {
     // Check if running in GPGPU-Sim by looking for gpgpusim.config
     std::ifstream configFile("gpgpusim.config");

diff --git a/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_bw/atomic_add_bw.cu b/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_bw/atomic_add_bw.cu
@@ -51,7 +51,7 @@ __global__ void atomic_bw(uint64_t *startClk, uint64_t *stopClk, T *data1,
 int main(int argc, char *argv[])
 {
 
-  intilizeDeviceProp(0, argc, argv);
+  initializeDeviceProp(0, argc, argv);
 
   // Parse command line arguments for --fast flag
   uint32_t repeat_times = 2048; // default

diff --git a/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_bw_conflict/atomic_add_bw_conflict.cu b/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_bw_conflict/atomic_add_bw_conflict.cu
@@ -40,7 +40,7 @@ __global__ void atomic_bw(uint32_t *startClk, uint32_t *stopClk, T *data1,
 int main(int argc, char *argv[])
 {
 
-  intilizeDeviceProp(0, argc, argv);
+  initializeDeviceProp(0, argc, argv);
   config.BLOCKS_NUM = config.SM_NUMBER * 2;
   config.TOTAL_THREADS = config.THREADS_PER_BLOCK * config.BLOCKS_NUM;
 

diff --git a/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_lat/atomic_add_lat.cu b/src/cuda/GPU_Microbenchmark/ubench/atomics/Atomic_add_lat/atomic_add_lat.cu
@@ -42,7 +42,7 @@ __global__ void atmoic_latency(uint32_t *startClk, uint32_t *stopClk, T *data1,
 int main(int argc, char *argv[])
 {
 
-  intilizeDeviceProp(0, argc, argv);
+  initializeDeviceProp(0, argc, argv);
 
   config.THREADS_PER_BLOCK = 1;
   config.THREADS_PER_SM = 1;

diff --git a/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_double/MaxFlops_double.cu b/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_double/MaxFlops_double.cu
@@ -3,7 +3,7 @@
 int main(int argc, char *argv[])
 {
 
-  intilizeDeviceProp(0, argc, argv);
+  initializeDeviceProp(0, argc, argv);
 
   dpu_max_flops();
 

diff --git a/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_float/MaxFlops_float.cu b/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_float/MaxFlops_float.cu
@@ -3,7 +3,7 @@
 int main(int argc, char *argv[])
 {
 
-  intilizeDeviceProp(0, argc, argv);
+  initializeDeviceProp(0, argc, argv);
 
   fpu_max_flops();
 

diff --git a/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_gmma/Makefile b/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_gmma/Makefile
@@ -0,0 +1,30 @@
+# Source files split for parallel compilation
+# Use wildcard to automatically include all size-specific breakdown files
+SRC = MaxFlops_gmma.cu $(wildcard kernels/MaxFlops_gmma_*.cu)
+
+EXE = MaxFlops_gmma
+
+# Add include path for CUTLASS
+INCLUDE += -I$(GPUAPPS_ROOT)/src/cuda/cutlass-bench/include -I./
+
+# GMMA is only supported in sm_90a
+ARCH?=sm_90a
+# Unset the CUDA_CPPFLAGS which is set based on CUDA version
+CUDA_CPPFLAGS=
+# Generate code for both sm_XXX and compute_XXX (SASS and PTX)
+HOPPER_CUDA_CPPFLAGS=$(foreach arch,$(ARCH),-gencode=arch=compute_$(subst sm_,,$(arch)),code=$(arch) -gencode=arch=compute_$(subst sm_,,$(arch)),code=compute_$(subst sm_,,$(arch)))
+
+# CUTLASS cute library requires C++17
+NVCC_FLAGS := $(HOPPER_CUDA_CPPFLAGS) -std=c++17
+
+include ../../../common/common.mk
+
+# A test executable for checking the library and simulator debugging
+TEST_SRC = MaxFlops_gmma_test.cu
+TEST_EXE = MaxFlops_gmma_test
+test: $(TEST_SRC)
+	$(CC) $(NVCC_FLAGS) $^ -o $(TEST_EXE) $(INCLUDE) -lcudart --cudart shared
+	cp $(TEST_EXE) $(BIN_DIR)
+
+# Append the test to the release target
+release: .EXTRA_PREREQS = test
diff --git a/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_gmma/MaxFlops_gmma.cu b/src/cuda/GPU_Microbenchmark/ubench/core/MaxFlops_gmma/MaxFlops_gmma.cu
@@ -0,0 +1,13 @@
+#include <cuda.h>
+#include "MaxFlops_gmma.h"
+#include "../../../hw_def/hw_def.h"
+
+int main(int argc, char *argv[])
+{
+  initializeDeviceProp(0, argc, argv);
+
+  // Run comprehensive sweep over all valid MMA operations
+  run_all_wgmma_maxflops_tests();
+
+  return 0;
+}
-Original file line number
+Diff line change
@@ -1,3 +1,5 @@
     bin/
     *.o
     *.out
+    *.a
+    *.ptx