InternLM
diff --git a/‎src/turbomind/kernels/gemm/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎src/turbomind/kernels/gemm/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/turbomind/kernels/gemm/arch.h‎
Lines changed: 2 additions & 0 deletions b/‎src/turbomind/kernels/gemm/arch.h‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/turbomind/kernels/gemm/context.cu‎
Lines changed: 4 additions & 0 deletions b/‎src/turbomind/kernels/gemm/context.cu‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎src/turbomind/kernels/gemm/cublas.cu‎
Lines changed: 151 additions & 0 deletions b/‎src/turbomind/kernels/gemm/cublas.cu‎
Lines changed: 151 additions & 0 deletions
diff --git a/‎src/turbomind/kernels/gemm/desc.h‎
Lines changed: 71 additions & 1 deletion b/‎src/turbomind/kernels/gemm/desc.h‎
Lines changed: 71 additions & 1 deletion
diff --git a/‎src/turbomind/kernels/gemm/dispatch_cache.cu‎
Lines changed: 8 additions & 2 deletions b/‎src/turbomind/kernels/gemm/dispatch_cache.cu‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎src/turbomind/kernels/gemm/gemm.cu‎
Lines changed: 2 additions & 35 deletions b/‎src/turbomind/kernels/gemm/gemm.cu‎
Lines changed: 2 additions & 35 deletions
@@ -27,6 +27,7 @@ add_library(gemm2
         kernel/sm80_s16816_dynamic.cu
         kernel/sm90_s16816_dynamic.cu
         kernel/sm90_q64n32.cu
+        cublas.cu
         moe_utils_v2.cu
         test/test_utils.cu
 )
 
@@ -33,6 +33,8 @@ struct Sm90: Arch<900> {
 inline bool is_arch_compatible(int karch, int darch)
 {
     switch (karch) {
+        case 0:
+            return true;
         case 700:
             return Sm70::is_compatible(darch);
         case 750:
 
@@ -136,6 +136,10 @@ std::vector<Kernel*> StaticGemmContext::Filter(const std::vector<Kernel*>& kerne
 
 std::vector<LaunchSpec> StaticGemmContext::Populate(const Kernel& kernel, const PopulateParam& param) const
 {
+    if (kernel.desc().backend) {
+        return {LaunchSpec{const_cast<Kernel*>(&kernel), 0, 1}};
+    }
+
     const int m = desc_->m, n = desc_->n, k = desc_->k;
 
     const auto& desc = kernel.desc();
 
@@ -0,0 +1,151 @@
+#include <cublas_v2.h>
+
+#include "src/turbomind/core/cuda_data_type.h"
+#include "src/turbomind/core/data_type.h"
+
+#include "src/turbomind/kernels/gemm/kernel.h"
+#include "src/turbomind/kernels/gemm/registry.h"
+#include "src/turbomind/kernels/gemm/types.h"
+
+namespace turbomind::gemm {
+
+class CublasKernel: public Kernel {
+public:
+    explicit CublasKernel()
+    {
+        cublasCreate(&cublas_);
+        if (0) {
+            cublasSetMathMode(cublas_, CUBLAS_MATH_DISALLOW_REDUCED_PRECISION_REDUCTION);
+        }
+        desc_         = {};
+        desc_.backend = 1;
+        name_         = GetName();
+    }
+
+    int Launch(const Operation&    operation,
+               float               alpha,
+               const void*         A,
+               const MatrixLayout& Adesc,
+               const void*         U,
+               const MatrixLayout& Udesc,
+               const void*         B,
+               const MatrixLayout& Bdesc,
+               const void*         V,
+               const MatrixLayout& Vdesc,
+               float               beta,
+               const void*         C,
+               const MatrixLayout& Cdesc,
+               void*               D,
+               const MatrixLayout& Ddesc,
+               int                 swizzle,
+               int                 splits,
+               Workspace&          workspace,
+               cudaStream_t        stream) override
+    {
+        cublasOperation_t transa = Adesc.order == kColMajor ? CUBLAS_OP_N : CUBLAS_OP_T;
+        cublasOperation_t transb = Bdesc.order == kColMajor ? CUBLAS_OP_N : CUBLAS_OP_T;
+
+        const int m = Adesc.rows;
+        const int n = Bdesc.cols;
+        const int k = Adesc.cols;
+
+        TM_CHECK_EQ(Bdesc.rows, k);
+        TM_CHECK_EQ(Ddesc.rows, m);
+        TM_CHECK_EQ(Ddesc.cols, n);
+
+        TM_CHECK(C == nullptr || C == D);
+
+        if (stream_ != stream) {
+            cublasSetStream(cublas_, stream);
+            stream_ = stream;
+        }
+
+        if (workspace_ != workspace.partials || workspace_size_ != workspace.partials_size) {
+            cublasSetWorkspace(cublas_, workspace.partials, workspace.partials_size);
+            workspace_      = workspace.partials;
+            workspace_size_ = workspace.partials_size;
+        }
+
+        auto ec = cublasGemmEx(cublas_,
+                               transa,
+                               transb,
+                               m,
+                               n,
+                               k,
+                               &alpha,
+                               A,
+                               to_cuda_dtype(Adesc.type),
+                               Adesc.ld,
+                               B,
+                               to_cuda_dtype(Bdesc.type),
+                               Bdesc.ld,
+                               &beta,
+                               D,
+                               to_cuda_dtype(Ddesc.type),
+                               Ddesc.ld,
+                               CUDA_R_32F,
+                               CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+
+        return ec == CUBLAS_STATUS_SUCCESS ? 0 : 1;
+    }
+
+    bool is_feasible(const GemmDesc& desc) const noexcept override
+    {
+        constexpr std::tuple flat3{Striding::kFlat, Striding::kFlat, Striding::kFlat};
+
+        if (std::tie(desc.striding_a, desc.striding_b, desc.striding_c) != flat3) {
+            return false;
+        }
+        if (std::tie(desc.pack_a, desc.pack_b, desc.pack_u, desc.pack_v) != std::tuple{0, 0, 0, 0}) {
+            return false;
+        }
+        if (desc.epilogue != Epilogue::kNone) {
+            return false;
+        }
+        if (desc.num > 1) {
+            return false;
+        }
+        if (desc.quant_a || desc.quant_b) {
+            return false;
+        }
+        if (desc.sched) {
+            return false;
+        }
+        if (desc.order_c != kColMajor) {
+            return false;
+        }
+        if (desc.type_a != kHalf && desc.type_a != kBfloat16 && desc.type_a != kFloat) {
+            return false;
+        }
+        if (desc.type_b != desc.type_a) {
+            return false;
+        }
+        if (desc.type_c != desc.type_a && desc.type_c != kFloat) {
+            return false;
+        }
+        return true;
+    }
+
+    int GetMaxSplits(const int4&, int64_t, size_t, size_t) const override
+    {
+        return 1;
+    }
+
+    int GetSwizzle(int m, int n, int k, int splits, int swizzle) const override
+    {
+        return 0;
+    }
+
+private:
+    cublasHandle_t cublas_{};
+    cudaStream_t   stream_{};
+    void*          workspace_{};
+    size_t         workspace_size_{};
+};
+
+void Registry::cublas_float()
+{
+    Add(std::make_unique<CublasKernel>());
+}
+
+}  // namespace turbomind::gemm
@@ -2,9 +2,11 @@
 
 #pragma once
 
+#include <array>
+#include <tuple>
+
 #include "src/turbomind/kernels/core/data_type.h"
 #include "src/turbomind/kernels/gemm/types.h"
-#include <array>
 
 namespace turbomind::gemm {
 
@@ -47,9 +49,36 @@ inline GemmDesc transpose(GemmDesc d)
     std::swap(d.pack_u, d.pack_v);
     std::swap(d.quant_a, d.quant_b);
     std::swap(d.m, d.n);
+    d.batch_dim = 1 - d.batch_dim;
     return d;
 }
 
+inline std::string to_string(const GemmDesc& d)
+{
+    std::stringstream ss;
+    ss << "sm" << d.arch / 10;
+    ss << "_" << to_string(d.type_a);  //
+    if (d.quant_a) {
+        ss << to_string(d.quant_a);
+    }
+    ss << "_" << to_string(d.type_b);  //
+    if (d.quant_b) {
+        ss << to_string(d.quant_b);
+    }
+    ss << "_" << to_string(d.type_c);
+    ss << "_"                                    //
+       << (d.order_a == kColMajor ? 'n' : 't')   //
+       << (d.order_b == kColMajor ? 'n' : 't')   //
+       << (d.order_c == kColMajor ? 'n' : 't');  //
+    ss << "_"                                    //
+       << to_string(d.striding_a)                //
+       << to_string(d.striding_b)                //
+       << to_string(d.striding_c);
+    ss << "_" << d.m << "x" << d.n << "x" << d.k;
+    ss << "_" << d.num;
+    return ss.str();
+}
+
 enum class OpClass
 {
     kSIMT,
@@ -101,12 +130,53 @@ struct KernelDesc {
     int       stages;
     bool      split_k;
     int       sched;
+    int       backend;
+    bool      transpose;
 
     // set by `KernelImpl`
     int                max_active_ctas;
     cudaFuncAttributes attr;
 };
 
+inline KernelDesc transpose(const KernelDesc& d)
+{
+    KernelDesc k{d};
+
+    k.arch     = d.arch;
+    k.op_class = d.op_class;
+
+    k.order_a = ~d.order_b;
+    k.order_b = ~d.order_a;
+    k.order_c = ~d.order_c;
+
+    k.type_a = d.type_b;
+    k.type_b = d.type_a;
+
+    k.striding_a = d.striding_b;
+    k.striding_b = d.striding_a;
+
+    k.pack_a = d.pack_b;
+    k.pack_b = d.pack_a;
+    k.pack_u = d.pack_v;
+    k.pack_v = d.pack_u;
+
+    k.quant_a = d.quant_b;
+    k.quant_b = d.quant_a;
+
+    k.policy_a = d.policy_b;
+    k.policy_b = d.policy_a;
+
+    auto swap = [](auto& v) { std::swap(v.x, v.y); };
+
+    swap(k.cta_tile);
+    swap(k.mma_tile);
+    swap(k.cluster_shape);
+    swap(k.align);
+    swap(k.c_tile);
+
+    return k;
+}
+
 class Kernel;
 struct LaunchSpec {
     Kernel* kernel;
 
@@ -52,6 +52,8 @@ static inline decltype(auto) as_tuple(const KernelDesc& d)
                     d.c_tile,
                     d.stages,
                     d.split_k,
+                    d.backend,
+                    d.transpose,
                     d.sched);
 }
 
@@ -139,7 +141,9 @@ void ExportDispatchCache(std::ostream& os, const std::vector<std::pair<GemmDesc,
                     k.policy_b,
                     k.c_tile.x,
                     k.c_tile.y,
-                    k.split_k);
+                    k.split_k,
+                    k.backend,
+                    k.transpose);
         // Runtime params
         export_impl(os, spec.swizzle, spec.splits);
         os << std::endl;
@@ -217,7 +221,9 @@ void ImportDispatchCache(std::istream&                                 is,
                     k.policy_b,
                     k.c_tile.x,
                     k.c_tile.y,
-                    k.split_k);
+                    k.split_k,
+                    k.backend,
+                    k.transpose);
         LaunchSpec spec{};
         import_impl(ss, spec.swizzle, spec.splits);
         for (const auto& p : kernels) {
 
@@ -277,6 +277,7 @@ int Gemm::Run(const Operation&    operation,
 
     if (!desc) {
         fprintf(stderr, "invalid argument.\n");
+        TM_CHECK(0);
         return -1;
     }
 
@@ -330,41 +331,7 @@ int Gemm::Run(const Operation&    operation,
         return launch(spec, stream);
     }
 
-    const auto launch1 = [=](LaunchSpec spec, cudaStream_t st) {
-        auto _workspace = workspace;
-        return spec.kernel->Launch(operation,
-                                   alpha,
-                                   B,
-                                   transpose(Bdesc),
-                                   V,
-                                   transpose(Vdesc),
-                                   A,
-                                   transpose(Adesc),
-                                   U,
-                                   transpose(Udesc),
-                                   beta,
-                                   C,
-                                   transpose(Cdesc),
-                                   D,
-                                   transpose(Ddesc),
-                                   spec.swizzle,
-                                   spec.splits,
-                                   _workspace,
-                                   stream);
-    };
-
-    if (operation.dispatch & DispatchPolicy::kMeasure) {
-        impl_->Measure(context, transpose(*desc), workspace.barriers_size, workspace.partials_size, 1, launch1, stream);
-    }
-
-    spec = impl_->Dispatch(
-        context, operation.dispatch, transpose(*desc), workspace.barriers_size, workspace.partials_size);
-
-    if (spec.kernel) {
-        return launch1(spec, stream);
-    }
-
-    fprintf(stderr, "No feasible kernel found for the problem.\n");
+    TM_CHECK(0) << "No feasible kernel found for the problem: " << to_string(*desc);
 
     return -1;
 }
Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,7 @@ add_library(gemm2`
`27`	`27`	`kernel/sm80_s16816_dynamic.cu`
`28`	`28`	`kernel/sm90_s16816_dynamic.cu`
`29`	`29`	`kernel/sm90_q64n32.cu`
	`30`	`+ cublas.cu`
`30`	`31`	`moe_utils_v2.cu`
`31`	`32`	`test/test_utils.cu`
`32`	`33`	`)`
Original file line number	Diff line number	Diff line change
`@@ -33,6 +33,8 @@ struct Sm90: Arch<900> {`
`33`	`33`	`inline bool is_arch_compatible(int karch, int darch)`
`34`	`34`	`{`
`35`	`35`	`switch (karch) {`
	`36`	`+ case 0:`
	`37`	`+ return true;`
`36`	`38`	`case 700:`
`37`	`39`	`return Sm70::is_compatible(darch);`
`38`	`40`	`case 750:`
Original file line number	Diff line number	Diff line change
`@@ -136,6 +136,10 @@ std::vector<Kernel> StaticGemmContext::Filter(const std::vector<Kernel>& kerne`
`136`	`136`
`137`	`137`	`std::vector<LaunchSpec> StaticGemmContext::Populate(const Kernel& kernel, const PopulateParam& param) const`
`138`	`138`	`{`
	`139`	`+ if (kernel.desc().backend) {`
	`140`	`+ return {LaunchSpec{const_cast<Kernel*>(&kernel), 0, 1}};`
	`141`	`+ }`
	`142`	`+`
`139`	`143`	`const int m = desc_->m, n = desc_->n, k = desc_->k;`
`140`	`144`
`141`	`145`	`const auto& desc = kernel.desc();`