add page tets

DD-DuDa · DD-DuDa · commit 4a15ed3c4dc0 · 2025-04-24T22:29:22.000+01:00
diff --git a/README.md b/README.md
@@ -27,10 +27,7 @@ python setup.py install
 1. See benchmark/bench_single_decode.ipynb
 2. (Optional) Play with libtorch c++      
     ```
-    cd libs/
-    wget https://download.pytorch.org/libtorch /cu124/libtorch-shared-with-deps-2.5.1%2Bcu124.zip
-    unzip libtorch-shared-with-deps-2.5.1+cu124.zip
-    rm libtorch-shared-with-deps-2.5.1+cu124.zip
+    # download libtorch 
 
     cd BitDecoding/csrc/bit_decode
     mkdir build && cd build
diff --git a/csrc/bit_decode/CMakeLists.txt b/csrc/bit_decode/CMakeLists.txt
@@ -31,6 +31,19 @@ target_link_libraries(test_single_packdecode "${TORCH_LIBRARIES}")
 target_include_directories(test_single_packdecode PRIVATE ${INCLUDE_DIR})
 target_compile_options(test_single_packdecode PRIVATE $<$<COMPILE_LANGUAGE:CUDA>:-maxrregcount=255 -gencode arch=compute_80,code=sm_80 -w>)
 
+message(STATUS "Compile testing packdecode kernel.")
+add_executable(test_batch_packdecode 
+    ${PROJECT_SOURCE_DIR}/src/test_batch_packdecode.cu
+    ${PROJECT_SOURCE_DIR}/src/genfile/flash_fwd_hdim128_fp16_sm80.cu
+    ${PROJECT_SOURCE_DIR}/src/genfile/flash_qpack_hdim128_fp16_sm80_2bit.cu
+    ${PROJECT_SOURCE_DIR}/src/genfile/flash_qpack_hdim128_fp16_sm80_4bit.cu
+    ${PROJECT_SOURCE_DIR}/src/genfile/flash_fwd_split_hdim128_fp16_sm80_2bit.cu
+    ${PROJECT_SOURCE_DIR}/src/genfile/flash_fwd_split_hdim128_fp16_sm80_4bit.cu
+)
+target_link_libraries(test_batch_packdecode "${TORCH_LIBRARIES}")
+target_include_directories(test_batch_packdecode PRIVATE ${INCLUDE_DIR})
+target_compile_options(test_batch_packdecode PRIVATE $<$<COMPILE_LANGUAGE:CUDA>:-maxrregcount=255 -gencode arch=compute_80,code=sm_80 -w>)
+
 message(STATUS "Compile benchmarking kernel.")
 add_executable(bench_single_packdecode 
     ${PROJECT_SOURCE_DIR}/src/bench_single_packdecode.cu
diff --git a/csrc/bit_decode/src/flash_api.h b/csrc/bit_decode/src/flash_api.h
@@ -88,19 +88,19 @@ void set_params_fprop(Flash_fwd_params &params,
     params.o_head_stride = out.stride(-2);
 
     if (cu_seqlens_q_d == nullptr) {
-    params.q_batch_stride = q.stride(0);
-    // params.k_batch_stride = k.stride(0);
-    params.K_pack_batch_stride = k_pack.stride(0);
-    params.k_params_batch_stride = k_params.stride(0);
-    // params.v_batch_stride = v.stride(0);
-    params.v_pack_batch_stride = v_pack.stride(0);
-    params.v_params_batch_stride = v_params.stride(0);
-    params.o_batch_stride = out.stride(0);
-
-    if (seqlenq_ngroups_swapped) {
-    params.q_batch_stride *= seqlen_q;
-    params.o_batch_stride *= seqlen_q;
-    }
+        params.q_batch_stride = q.stride(0);
+        // params.k_batch_stride = k.stride(0);
+        params.K_pack_batch_stride = k_pack.stride(0);
+        params.k_params_batch_stride = k_params.stride(0);
+        // params.v_batch_stride = v.stride(0);
+        params.v_pack_batch_stride = v_pack.stride(0);
+        params.v_params_batch_stride = v_params.stride(0);
+        params.o_batch_stride = out.stride(0);
+
+        if (seqlenq_ngroups_swapped) {
+            params.q_batch_stride *= seqlen_q;
+            params.o_batch_stride *= seqlen_q;
+        }
     }
 
     params.cu_seqlens_q = static_cast<int *>(cu_seqlens_q_d);
@@ -130,14 +130,14 @@ void set_params_fprop(Flash_fwd_params &params,
     TORCH_CHECK(softcap <= 0.0, "This flash attention build does not support softcap.");
     #endif
     if (softcap > 0.0) {
-    params.softcap = softmax_scale / softcap;
-    params.scale_softmax = softcap;
-    params.scale_softmax_log2 = softcap * M_LOG2E;
+        params.softcap = softmax_scale / softcap;
+        params.scale_softmax = softcap;
+        params.scale_softmax_log2 = softcap * M_LOG2E;
     } else{
-    // Remove potential NaN
-    params.softcap = 0.0;
-    params.scale_softmax = softmax_scale;
-    params.scale_softmax_log2 = softmax_scale * M_LOG2E;
+        // Remove potential NaN
+        params.softcap = 0.0;
+        params.scale_softmax = softmax_scale;
+        params.scale_softmax_log2 = softmax_scale * M_LOG2E;
     }
 
     // Set this to probability of keeping an element to simplify things.
@@ -337,7 +337,7 @@ mha_fwd_kvcache(at::Tensor &q,                       // batch_size x seqlen_q x
     const auto sizes = q.sizes();
 
     const int batch_size = sizes[0];
-    int seqlen_q = sizes[1];
+    int seqlen_q  = sizes[1];
     int num_heads = sizes[2];
     const int head_size_og = sizes[3]; // dim
 
@@ -456,7 +456,8 @@ void set_params_fprop_qpack(Flash_fwd_params &params,
     const at::Tensor v, at::Tensor v_pack, at::Tensor v_params,
     void *cu_seqlens_k_d,
     const std::string quant_mode,
-    const int group_size
+    const int group_size,
+    bool page_kv
     ) {
 
     // Reset the parameters
@@ -489,12 +490,12 @@ void set_params_fprop_qpack(Flash_fwd_params &params,
     params.v_pack_head_stride = v_pack.stride(-2);
     params.v_params_head_stride = v_params.stride(-2);
 
-    // params.k_batch_stride = k.stride(0);
-    params.k_batch_stride = seqlen_k * k.size(-2) * k.size(-1);
+    if (page_kv) params.k_batch_stride = k.stride(0);
+    else params.k_batch_stride = seqlen_k * k.size(-2) * k.size(-1);
     params.K_pack_batch_stride = k_pack.stride(0);
     params.k_params_batch_stride = k_params.stride(0);
-    // params.v_batch_stride = v.stride(0);
-    params.v_batch_stride = seqlen_k * v.size(-2) * v.size(-1);
+    if (page_kv) params.v_batch_stride = v.stride(0);
+    else params.v_batch_stride = seqlen_k * v.size(-2) * v.size(-1);
     params.v_pack_batch_stride = v_pack.stride(0);
     params.v_params_batch_stride = v_params.stride(0);
 
@@ -583,7 +584,8 @@ void kvcache_qpack(const at::Tensor &k,
                            v, v_pack, v_params,
                            /*cu_seqlens_k_d=*/nullptr,
                            quant_mode,
-                           group_size
+                           group_size,
+                           paged_KV
                            );
 
     if (paged_KV) {
diff --git a/csrc/bit_decode/src/flash_fwd_kernel.h b/csrc/bit_decode/src/flash_fwd_kernel.h
@@ -893,7 +893,7 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
     Tensor tSrV_view             = smem_thr_copy_V.retile_D(tSrV);
     Tensor tSsV_pack_s2r         = smem_thr_copy_V_pack.partition_S(sVt_pack);
     Tensor tSrV_pack_s2r_view    = smem_thr_copy_V_pack.retile_D(tSrV_pack);
-
+ 
     // Advance gK
     cute::copy(gmem_tiled_copy_QKV, tKgK, tKsK);
     
@@ -914,7 +914,7 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
     
     TensorParamsKC tScales_k_c, tZeros_k_c;
     TensorParamsVG tScales_v_c, tZeros_v_c;
-    TensorParamsG tScales_k_g, tZeros_k_g;
+    TensorParamsG  tScales_k_g, tZeros_k_g;
 
     if (Kernel_traits::quant_mode == 1) {
         quant::qpack_Kchannel_Vtensor<num_bits>(tSrK, tSrK_pack, tScales_k_c, tZeros_k_c, sReduce_tmp, num_params);
@@ -979,7 +979,6 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
     cute::copy(gmem_tiled_copy_k_pack, tKsK_pack_s2g, tKgK_pack_s2g);
     __syncthreads();
     cute::copy(gmem_tiled_copy_v_pack, tVsV_pack_s2g, tVgV_pack_s2g);
-
     __syncthreads();
     // //////////////////////////////////////////////////////////////////////////////
     // // verify the quantize
@@ -1019,7 +1018,7 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
     //    quant::dequant_Kchannel_Vtensor<num_bits>(tSrV_pack(_,_,i), tSrV_dequant(_,_,i), tScales_v_c(_,i), tZeros_v_c(_,i), num_params);
     // }
 
-    if (Kernel_traits::quant_mode == 1) {
+    // if (Kernel_traits::quant_mode == 1) {
         // CUTE_UNROLL
         // for (int i = 0; i < size<1>(tScales_k_h2_c); ++i) {
         //     CUTE_UNROLL
@@ -1033,7 +1032,7 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
         // for (int i = 0; i < size<2>(tSrK_pack); ++i) {
         //     quant::dequant_Kchannel_Vtensor<num_bits>(tSrK_pack(_,_,i), tSrK_dequant(_,_,i), tScales_k_c(_,i), tZeros_k_c(_,i), num_params);
         // }
-    } else {
+    // } else {
         // CUTE_UNROLL
         // for (int j = 0; j < size<0>(tScales_k_h2_g); ++j) {
         //     tScales_k_h2_g(j) = gK_params(0  + 32*j + tidx/4, 0);
@@ -1043,11 +1042,11 @@ inline __device__ void compute_qpack_1rowblock(const Params &params, const int b
         // auto tScales_k_h1_g = cute::recast<__half>(tScales_k_h2_g);
         // auto tZeros_k_h1_g = cute::recast<__half>(tZeros_k_h2_g);
 
-        CUTE_UNROLL
-        for (int i = 0; i < size<2>(tSrK_pack); ++i) {
-            quant::dequantize_Ktensor(tSrK_pack, tSrK_dequant, tScales_k_h2_g, tZeros_k_h2_g, 4, group_size, i);
-        }
-    }
+        // CUTE_UNROLL
+    //     for (int i = 0; i < size<2>(tSrK_pack); ++i) {
+    //         quant::dequantize_Ktensor(tSrK_pack, tSrK_dequant, tScales_k_h2_g, tZeros_k_h2_g, 4, group_size, i);
+    //     }
+    // }
 
     // // //////////////////////////////////////////////////////////////////////////////
     #if DEBUG2
@@ -1132,10 +1131,10 @@ template<typename Kernel_traits, bool Is_causal, bool Is_local, bool Has_alibi,
 inline __device__ void compute_attn_splitkv(const Params &params) {
     const int m_block = blockIdx.x;
     // The block index for the batch.
-    const int bidb = Split ? blockIdx.z / params.h : blockIdx.y;
+    const int bidb    = Split ? blockIdx.z / params.h : blockIdx.y;
     // The block index for the head.
-    const int bidh = Split ? blockIdx.z - bidb * params.h : blockIdx.z;
-    const int n_split_idx = Split ? blockIdx.y : 0;
+    const int bidh         = Split ? blockIdx.z - bidb * params.h : blockIdx.z;
+    const int n_split_idx  = Split ? blockIdx.y : 0;
     const int num_n_splits = Split ? gridDim.y : 1;
     flash::compute_attn_1rowblock_splitkv<Kernel_traits, Is_causal, Is_local, Has_alibi, Is_even_MN, Is_even_K, Is_softcap, Split, Append_KV, Paged_KV>(params, bidb, bidh, m_block, n_split_idx, num_n_splits);
 }
diff --git a/csrc/bit_decode/src/flash_fwd_launch_template.h b/csrc/bit_decode/src/flash_fwd_launch_template.h
@@ -60,9 +60,6 @@ DEFINE_FLASH_FORWARD_KERNEL(flash_fwd_splitkv_combine_kernel, int kBlockM, int L
     flash::combine_attn_seqk_parallel<Kernel_traits, kBlockM, Log_max_splits, Is_even_K>(params);
 }
 
-
-
-
 template<typename Kernel_traits, bool Is_dropout, bool Is_causal>
 void run_flash_fwd(Flash_fwd_params &params, cudaStream_t stream) {
     constexpr size_t smem_size = Kernel_traits::kSmemSize;
@@ -118,7 +115,7 @@ void run_flash_splitkv_fwd(Flash_fwd_params &params, cudaStream_t stream) {
     //         LOCAL_SWITCH((params.window_size_left >= 0 || params.window_size_right >= 0) && !Is_causal, Is_local, [&] {
                     BOOL_SWITCH(params.num_splits > 1, Split, [&] {
                         // BOOL_SWITCH(params.knew_ptr != nullptr, Append_KV, [&] {
-                            // BOOL_SWITCH(params.block_table != nullptr, Paged_KV, [&] {
+                            BOOL_SWITCH(params.block_table != nullptr, Paged_KV, [&] {
     //                     ALIBI_SWITCH(params.alibi_slopes_ptr != nullptr, Has_alibi, [&] {
     //                         SOFTCAP_SWITCH(params.softcap > 0.0, Is_softcap, [&] {
                                 // If Append_KV, then we must have seqlen_offsets, which means cu_seqlens_k != nullptr.
@@ -131,7 +128,7 @@ void run_flash_splitkv_fwd(Flash_fwd_params &params, cudaStream_t stream) {
                                 // Append_KV: 
                                 // Has_alibi: 0
                                 // Is_softcap: 0
-                                auto kernel = &flash_fwd_splitkv_kernel<Kernel_traits, Is_causal, false, false, false, true, false, Split, false, false>;
+                                auto kernel = &flash_fwd_splitkv_kernel<Kernel_traits, Is_causal, false, false, false, true, false, Split, false, Paged_KV>;
                                 // auto kernel = &flash_fwd_splitkv_kernel<Kernel_traits, Is_causal, false, true, Split, Append_KV>;
                                 // auto kernel = &flash_fwd_splitkv_kernel<Kernel_traits, Is_causal, false, IsEvenKConst>;
                                 if (smem_size >= 48 * 1024) {
@@ -141,7 +138,7 @@ void run_flash_splitkv_fwd(Flash_fwd_params &params, cudaStream_t stream) {
                                 kernel<<<grid, Kernel_traits::kNThreads, smem_size, stream>>>(params);
                                 C10_CUDA_KERNEL_LAUNCH_CHECK();
     //                         });
-                            // });
+                            });
                         // });
                     });
     //         });
diff --git a/csrc/bit_decode/src/genfile/flash_fwd_split_hdim128_fp16_sm80_2bit.cu b/csrc/bit_decode/src/genfile/flash_fwd_split_hdim128_fp16_sm80_2bit.cu
@@ -4,6 +4,6 @@
 
 #include "../flash_fwd_launch_template.h"
 
-template void run_mha_fwd_splitkv_dispatch<cutlass::half_t, 128, false, 1, 2, 128>(Flash_fwd_params &params, cudaStream_t stream);
+// template void run_mha_fwd_splitkv_dispatch<cutlass::half_t, 128, false, 1, 2, 128>(Flash_fwd_params &params, cudaStream_t stream);
 // template void run_mha_fwd_splitkv_dispatch<cutlass::half_t, 128, false, 1, 2, 64>(Flash_fwd_params &params, cudaStream_t stream);
 // template void run_mha_fwd_splitkv_dispatch<cutlass::half_t, 128, false, 1, 2, 32>(Flash_fwd_params &params, cudaStream_t stream);
diff --git a/csrc/bit_decode/src/genfile/flash_qpack_hdim128_fp16_sm80_2bit.cu b/csrc/bit_decode/src/genfile/flash_qpack_hdim128_fp16_sm80_2bit.cu
@@ -4,10 +4,10 @@
 
 #include "../flash_fwd_launch_template.h"
 
-template<>
-void run_kvcache_qpack_<cutlass::half_t, 128, 1, 2, 128>(Flash_fwd_params &params, cudaStream_t stream) {
-    run_kvcache_qpack_hdim128<cutlass::half_t, 1, 2, 128>(params, stream);
-}
+// template<>
+// void run_kvcache_qpack_<cutlass::half_t, 128, 1, 2, 128>(Flash_fwd_params &params, cudaStream_t stream) {
+//     run_kvcache_qpack_hdim128<cutlass::half_t, 1, 2, 128>(params, stream);
+// }
 // template<>
 // void run_kvcache_qpack_<cutlass::half_t, 128, 1, 2, 64>(Flash_fwd_params &params, cudaStream_t stream) {
 //     run_kvcache_qpack_hdim128<cutlass::half_t, 1, 2, 64>(params, stream);
diff --git a/csrc/bit_decode/src/test_batch_packdecode.cu b/csrc/bit_decode/src/test_batch_packdecode.cu
diff --git a/csrc/bit_decode/src/test_single_packdecode.cu b/csrc/bit_decode/src/test_single_packdecode.cu