Dispatch MXFP4 weight conversion for sm70 & sm75 (#3937)

lzhangzz · web-flow · commit b77f157c2973 · 2025-09-05T15:51:04.000+08:00
* simplify weight conversion dispatch

* fix sm70 window attention
diff --git a/src/turbomind/kernels/attention/mainloop_sm70.h b/src/turbomind/kernels/attention/mainloop_sm70.h
@@ -107,6 +107,8 @@ struct Mainloop<arch::Sm70, Impl_> {
             Impl::ComputePV(state_PV, frag_O, 0, nop, [&] {});
 
             gmem_K.Save(tmp_K);
+
+            offset_K -= CTA_S;
         };
 
         for (int mask_iter = max(1, mask_iter_back); tile_iter > 0 && mask_iter > 0; --tile_iter, --mask_iter) {
diff --git a/src/turbomind/kernels/core/array_ops.h b/src/turbomind/kernels/core/array_ops.h
@@ -186,6 +186,9 @@ inline __device__ void Store(T* dst, const Array<T, N>& src)
     else if constexpr (sizeof(Array<T, N>) == sizeof(ushort)) {
         *(ushort*)dst = (const ushort&)src;
     }
+    else if constexpr (sizeof(Array<T, N>) == sizeof(char)) {
+        *(char*)dst = (const char&)src;
+    }
     else if constexpr (sizeof(Array<T, N>) % sizeof(uint4) == 0) {  //  uncoalesced
         static_assert(bitsof<T> % 8 == 0, "raw pointer arithmetic of sub-byte types");
         constexpr int M = sizeof(Array<T, N>) / sizeof(uint4);
diff --git a/src/turbomind/kernels/gemm/CMakeLists.txt b/src/turbomind/kernels/gemm/CMakeLists.txt
@@ -20,8 +20,6 @@ add_library(gemm2
         kernel/f16_u4g128_f16_tnt_sm80_s16816.cu
         kernel/f16_u4g128_f16_tnt_sm75_s16816.cu
         kernel/f16_u4g128_f16_tnt_sm70_s884.cu
-        # kernel/f16_u4g128_f16_tnt_sm75_simt.cu
-        # kernel/u4g128_f16_f16_nnn_sm80_s16816.cu
         kernel/sm90_mxfp4.cu
         kernel/sm80_mxfp4.cu
         kernel/sm70_s884_dynamic.cu
diff --git a/src/turbomind/kernels/gemm/convert_v2.cu b/src/turbomind/kernels/gemm/convert_v2.cu
@@ -1,5 +1,6 @@
 // Copyright (c) OpenMMLab. All rights reserved.
 
+#include "src/turbomind/core/data_type.h"
 #include "src/turbomind/kernels/attention/quantization.h"
 #include "src/turbomind/kernels/core/common.h"
 #include "src/turbomind/kernels/core/math.h"
@@ -124,7 +125,7 @@ int Convert(const void*         S,  //
             static constexpr bool kIsValid  = kPackSize % unit_size(type_c<Dtype>) == 0;
             constexpr Pack        pack      = mma | operand | pack_num;
 
-            if constexpr (kIsValid || operand == OPERAND_U) {
+            if constexpr (kIsValid || is_UV(operand)) {
                 // Launch conversion kernel
                 Convert_v2_Impl<Config<Operand, Dtype, pack_num_tag>>(S, Sdesc, D, Ddesc, stream);
                 // Set leading dimension for destination
@@ -226,66 +227,6 @@ int Convert(const void*         S,  //
     return dispatch() - 1;
 }
 
-std::tuple<Order, Pack, Order, Pack>
-get_weight_and_scales_layout(DataType dtype, bool is_fused_moe, int sm, bool force_simt)
-{
-    if (is_fused_moe) {
-        if (dtype == kBfloat16 && sm >= 80) {
-            return {kColMajor, HMMA_16816 | OPERAND_B | 1, {}, {}};
-        }
-
-        if (dtype == kFloat16) {
-            if (sm >= 80) {
-                return {kColMajor, HMMA_16816 | OPERAND_B | 1, {}, {}};
-            }
-            else if (sm == 75) {
-                return {kColMajor, HMMA_16816 | OPERAND_B | 1, {}, {}};
-            }
-            else if (sm == 70) {
-                return {kColMajor, HMMA_884 | OPERAND_B | 1, {}, {}};
-            }
-        }
-        else if (dtype == kUint4) {
-            if (sm >= 80) {
-                return {kColMajor, HMMA_16816 | OPERAND_B | 2, kRowMajor, HMMA_16816 | OPERAND_V | 1};
-            }
-            else if (sm == 75) {
-                return {kColMajor, HMMA_16816 | OPERAND_B | 2, kRowMajor, HMMA_16816 | OPERAND_V | 1};
-            }
-            else if (sm == 70) {
-                return {kColMajor, HMMA_884 | OPERAND_B | 1, kRowMajor, HMMA_884 | OPERAND_V | 1};
-            }
-        }
-        else if (dtype == kFloat4_e2m1) {
-            if (sm >= 80) {
-                return {kColMajor, HMMA_16816 | OPERAND_A | 1, kColMajor, HMMA_16816 | OPERAND_U | 1};
-            }
-        }
-    }
-    else {
-        if (dtype == kUint4) {
-            if (force_simt) {
-                return {kColMajor, HMMA_SIMT | OPERAND_B | 1, kRowMajor, HMMA_SIMT | OPERAND_V | 1};
-            }
-            if (sm >= 80) {
-                return {kRowMajor, HMMA_16816 | OPERAND_B | 2, kRowMajor, HMMA_16816 | OPERAND_V | 1};
-            }
-            else if (sm == 75) {
-                return {kRowMajor, HMMA_16816 | OPERAND_B | 2, kRowMajor, HMMA_16816 | OPERAND_V | 1};
-            }
-            else if (sm == 70) {
-                return {kColMajor, HMMA_884 | OPERAND_B | 1, kRowMajor, HMMA_884 | OPERAND_V | 1};
-            }
-        }
-    }
-
-    std::cerr << "not implemented: dtype=" << to_string(dtype) << ", is_fused_moe=" << is_fused_moe << ", sm=" << sm
-              << std::endl;
-    std::abort();
-
-    return {};
-}
-
 namespace {
 
 template<int N>
diff --git a/src/turbomind/kernels/gemm/kernel/sm70_s884_dynamic.cu b/src/turbomind/kernels/gemm/kernel/sm70_s884_dynamic.cu
@@ -91,11 +91,11 @@ void Registry::sm70_s884_dynamic()
                             0>;
 
         // clang-format off
-        Add<C::Type<128, 128,  16, 2, 2, 1, D, D, 2, true, 1, 128,  64, 128>>();
-        Add<C::Type< 64, 128,  32, 1, 4, 1, D, S, 2, true, 1, 128,  32, 128>>();
-        Add<C::Type< 32, 128,  32, 1, 4, 1, D, S, 2, true, 1, 128>>();
-        Add<C::Type< 16, 128,  32, 1, 4, 1, D, S, 2, true, 1, 128>>();
-        Add<C::Type<  8, 128,  64, 1, 4, 1, D, S, 2, true, 1, 128>>();
+        Add<C::Type<128, 128,  16, 2, 2, 1, D, D, 2, true, 1, 32,  64, 128>>();
+        Add<C::Type< 64, 128,  32, 1, 4, 1, D, S, 2, true, 1, 32,  32, 128>>();
+        Add<C::Type< 32, 128,  32, 1, 4, 1, D, S, 2, true, 1, 32>>();
+        Add<C::Type< 16, 128,  32, 1, 4, 1, D, S, 2, true, 1, 32>>();
+        Add<C::Type<  8, 128,  64, 1, 4, 1, D, S, 2, true, 1, 32>>();
         // clang-format on
     }
 }
diff --git a/src/turbomind/kernels/gemm/registry.cu b/src/turbomind/kernels/gemm/registry.cu
@@ -9,7 +9,6 @@ Registry::Registry(std::shared_ptr<cudaDeviceProp> device_prop):
     device_prop_{std::move(device_prop)}, arch_{device_prop_->major * 100 + device_prop_->minor * 10}
 {
     f16_u4g128_f16_tnt_sm70_s884();
-    // f16_u4g128_f16_tnt_sm75_simt();
     f16_u4g128_f16_tnt_sm75_s16816();
     f16_u4g128_f16_tnt_sm80_s16816();
     f16_u4g128_f16_tnt_sm90_s16816();
diff --git a/src/turbomind/kernels/gemm/test/reference.cu b/src/turbomind/kernels/gemm/test/reference.cu
@@ -71,15 +71,16 @@ void Reference::gemm(const void* A, MatrixLayout Adesc, const void* B, MatrixLay
         // (n, k) (k, m)
     }
 
-    CHECK(Adesc.cols == Bdesc.rows);
+    TM_CHECK_EQ(Adesc.cols, Bdesc.rows);
 
     // (m, k) (k, n)
     int m = Cdesc.rows;
     int n = Cdesc.cols;
     int k = Adesc.cols;
-    CHECK(Adesc.rows == m);
-    CHECK(Bdesc.cols == n);
-    CHECK(Bdesc.rows == k);
+
+    TM_CHECK_EQ(Adesc.rows, m);
+    TM_CHECK_EQ(Bdesc.cols, n);
+    TM_CHECK_EQ(Bdesc.rows, k);
 
     float alpha = 1.f;
     float beta  = 0.f;
diff --git a/src/turbomind/kernels/gemm/test/test_gemm_v2.cc b/src/turbomind/kernels/gemm/test/test_gemm_v2.cc
@@ -24,10 +24,11 @@ int main()
 
     core::ContextGuard ctx{stream, core::Allocator{kCPU}, core::Allocator{stream, false}};
     // TestParameter p{kBfloat16, kBfloat16, kBfloat16};
+    // TestParameter p{kHalf, kHalf, kHalf};
     // TestParameter p{kBfloat16, kFloat8_e4m3, kFloat8_e4m3, 128};
-    TestParameter p{kHalf, kUint4, kHalf, 128};
+    // TestParameter p{kHalf, kUint4, kHalf, 128};
     // TestParameter p{kBfloat16, kFloat4_e2m1, kBfloat16, 32};
-    // TestParameter p{kHalf, kFloat4_e2m1, kHalf, 32};
+    TestParameter p{kHalf, kFloat4_e2m1, kHalf, 32};
 
     // p.input_dim      = 512;
     // p.output_dim     = 1024;
@@ -61,10 +62,10 @@ int main()
     // p.experts_per_token = 8;
 
     p.input_dim         = 4096;
-    p.output_dim        = 4096;
-    p.max_batch_size    = 8;
-    p.expert_num        = 8;
-    p.experts_per_token = 8;
+    p.output_dim        = 6144;
+    p.max_batch_size    = 512;
+    p.expert_num        = 32;
+    p.experts_per_token = 4;
 
     // p.input_dim      = 32;
     // p.output_dim     = 32;
diff --git a/src/turbomind/models/llama/LlamaDenseWeight.cc b/src/turbomind/models/llama/LlamaDenseWeight.cc

Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,6 @@ Registry::Registry(std::shared_ptr<cudaDeviceProp> device_prop):`
`9`	`9`	`device_prop_{std::move(device_prop)}, arch_{device_prop_->major * 100 + device_prop_->minor * 10}`
`10`	`10`	`{`
`11`	`11`	`f16_u4g128_f16_tnt_sm70_s884();`
`12`		`- // f16_u4g128_f16_tnt_sm75_simt();`
`13`	`12`	`f16_u4g128_f16_tnt_sm75_s16816();`
`14`	`13`	`f16_u4g128_f16_tnt_sm80_s16816();`
`15`	`14`	`f16_u4g128_f16_tnt_sm90_s16816();`