Support of INT4 KV (#3878)

Aya-ZIbra · facebook-github-bot · commit 009f75a13412 · 2025-04-28T13:20:41.000-07:00
Summary: X-link: facebookresearch/FBGEMM#968 Enabling int4 KV for LLama4 numeric evals Changes: 1) k_norm 2) zero init dequantization. 3) Add NoPE for int4 Reviewed By: summerdengfb Differential Revision: D70508737
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp
@@ -37,6 +37,8 @@ at::Tensor nope_qkv_varseq_prefill(
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
+    int64_t cache_logical_dtype_int,
+    std::optional<int64_t> num_groups,
     std::optional<at::Tensor> qparam_k,
     std::optional<at::Tensor> qparam_v,
     bool k_norm);
@@ -53,6 +55,8 @@ at::Tensor nope_qkv_decoding(
     std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> batch,
     std::optional<at::Tensor> cache_seqpos,
+    int64_t cache_logical_dtype_int,
+    std::optional<int64_t> num_groups,
     std::optional<at::Tensor> qparam_k,
     std::optional<at::Tensor> qparam_v,
     bool k_norm);
@@ -187,9 +191,9 @@ TORCH_LIBRARY_FRAGMENT(fbgemm, m) {
   m.def("rope_qkv_decoding(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, float theta, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
       DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None,  int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False) -> Tensor");
   m.def("nope_qkv_varseq_prefill(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor varseq_batch, Tensor varseq_seqpos, Tensor? block_tables=None, int page_size=" STRING(
-      DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False) -> Tensor");
+      DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, int? num_groups=1, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False) -> Tensor");
   m.def("nope_qkv_decoding(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, Tensor? block_tables=None, int page_size=" STRING(
-      DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False) -> Tensor");
+      DEFAULT_PAGE_SIZE) ", Tensor? actual_batch_size=None, Tensor? batch=None, Tensor? cache_seqpos=None, int cache_logical_dtype_int=0, int? num_groups=1, Tensor? qparam_k=None, Tensor? qparam_v=None, bool k_norm=False) -> Tensor");
   m.def("xpos_qkv_varseq_prefill(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V, Tensor varseq_batch, Tensor varseq_seqpos, float theta, float gamma, float scale_base, float exponent_offset, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
       DEFAULT_PAGE_SIZE) ", Tensor? varseq_cache_seqpos=None, int cache_logical_dtype_int=0, bool rope_scaling=False, int old_context_len=8192, float scaling_factor=16, float lo_freq_factor=1, float hi_freq_factor=32,  Tensor? qparam_k=None, Tensor? qparam_v=None) -> Tensor");
   m.def("xpos_qkv_decoding(Tensor XQ, Tensor XK, Tensor XV, Tensor(a!) cache_K, Tensor(b!) cache_V,  Tensor seqpos, float theta, float gamma, float scale_base, float exponent_offset, int? num_groups=1, Tensor? block_tables=None, int page_size=" STRING(
@@ -288,6 +292,8 @@ at::Tensor nope_qkv_varseq_prefill_meta(
     std::optional<at::Tensor> /* block_tables */,
     int64_t /* page_size */,
     std::optional<at::Tensor> /* varseq_cache_seqpos */,
+    int64_t /* cache_logical_dtype_int */,
+    std::optional<int64_t> /* num_groups */,
     std::optional<at::Tensor> /* qparam_k */,
     std::optional<at::Tensor> /* qparam_v */,
     bool /* k_norm */
@@ -307,6 +313,8 @@ at::Tensor nope_qkv_decoding_meta(
     std::optional<at::Tensor> /* actual_batch_size */,
     std::optional<at::Tensor> /* batch */,
     std::optional<at::Tensor> /* cache_seqpos */,
+    int64_t /* cache_logical_dtype_int */,
+    std::optional<int64_t> /* num_groups */,
     std::optional<at::Tensor> /* qparam_k */,
     std::optional<at::Tensor> /* qparam_v */,
     bool /* k_norm */
diff --git a/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu b/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu
@@ -168,9 +168,9 @@ std::tuple<at::Tensor, at::Tensor> dequantize_int4_cache(
   auto D_H = (D_HQ - int4_qparam_offset) * 2;
 
   auto cache_K_dq =
-      at::empty({B, MAX_T, N_KVH, D_H}, cache_K.options().dtype(at::kBFloat16));
+      at::zeros({B, MAX_T, N_KVH, D_H}, cache_K.options().dtype(at::kBFloat16));
   auto cache_V_dq =
-      at::empty({B, MAX_T, N_KVH, D_H}, cache_K.options().dtype(at::kBFloat16));
+      at::zeros({B, MAX_T, N_KVH, D_H}, cache_K.options().dtype(at::kBFloat16));
 
   if (B == 0) {
     return {cache_K_dq, cache_V_dq};
@@ -625,7 +625,14 @@ DEVICE_INLINE fx4 rope_xpos(
 }
 
 template <int KVQuantNumGroups = 1>
-DEVICE_INLINE void quantize_int4_kv(fx4 dst, uint8_t* dst_row_q) {
+DEVICE_INLINE void quantize_int4_kv(fx4 dst, uint8_t* dst_row_q, bool do_norm) {
+  if (do_norm) {
+    float sum = fx4_dot(dst, dst);
+    // Warp reduce sum
+    sum = warpReduceSum(sum);
+    float rsqr = rsqrtf(sum / D_H);
+    dst = fx4_scale(dst, rsqr);
+  }
   auto thread_min = fminf(fminf(fminf(dst.x, dst.y), dst.z), dst.w);
   auto thread_max = fmaxf(fmaxf(fmaxf(dst.x, dst.y), dst.z), dst.w);
 
@@ -961,7 +968,8 @@ __global__ void rope_xpos_qkv_varseq_prefill_kernel_quantized(
       quantize_fp8_kv(dst, dst_row_q, qparam_row, (qkv == QKV::K && k_norm));
     } else if (kCacheDtype == CacheLogicalDtype::INT4) {
       CUDA_KERNEL_ASSERT(D_H_q - D_H / 2 == 4 * KVQuantNumGroups);
-      quantize_int4_kv<KVQuantNumGroups>(dst, dst_row_q);
+      quantize_int4_kv<KVQuantNumGroups>(
+          dst, dst_row_q, (qkv == QKV::K && k_norm));
     }
   }
 }
@@ -977,6 +985,8 @@ at::Tensor nope_qkv_varseq_prefill(
     std::optional<at::Tensor> block_tables,
     int64_t page_size,
     std::optional<at::Tensor> varseq_cache_seqpos,
+    int64_t cache_logical_dtype_int,
+    std::optional<int64_t> num_groups,
     std::optional<at::Tensor> qparam_k = std::nullopt,
     std::optional<at::Tensor> qparam_v = std::nullopt,
     bool k_norm = false) {
@@ -1005,7 +1015,8 @@ at::Tensor nope_qkv_varseq_prefill(
     block_tables_ptr = static_cast<int32_t*>(block_tables.value().data_ptr());
     block_tables_b_stride = block_tables.value().stride(0);
   }
-
+  CacheLogicalDtype cache_logical_dtype =
+      static_cast<CacheLogicalDtype>(cache_logical_dtype_int);
   if (cache_K.dtype() == at::kBFloat16) {
     nope_qkv_varseq_prefill_kernel<<<
         blocks,
@@ -1029,7 +1040,7 @@ at::Tensor nope_qkv_varseq_prefill(
     C10_CUDA_KERNEL_LAUNCH_CHECK();
     return XQ_O;
   } else {
-    // TODO: Pass Logical datatype to differentiate INT4 and FP8
+    auto num_groups_ = num_groups ? num_groups.value() : 1;
     int32_t* qparam_k_ptr = nullptr;
     int32_t* qparam_v_ptr = nullptr;
     if (qparam_k.has_value()) {
@@ -1039,33 +1050,66 @@ at::Tensor nope_qkv_varseq_prefill(
     auto varseq_batch_ = varseq_batch.data_ptr<int32_t>();
     auto varseq_seqpos_ =
         varseq_seqpos.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-
-    CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL(
-        1,
-        CacheLogicalDtype::FP8,
-        PositionEmbeddingMode::NOPE,
-        varseq_batch_,
-        varseq_seqpos_,
-        0,
-        0,
-        0,
-        0,
-        block_tables_ptr,
-        page_size,
-        block_tables_b_stride,
-        (varseq_cache_seqpos_
-             .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-        nullptr,
-        false,
-        0,
-        0,
-        0,
-        0,
-        false,
-        k_norm);
-    C10_CUDA_KERNEL_LAUNCH_CHECK();
-    return XQ_O;
+    if (cache_logical_dtype == CacheLogicalDtype::FP8) {
+#if (defined(USE_ROCM) && ROCM_VERSION >= 60200) || \
+    (defined(CUDA_VERSION) && CUDA_VERSION >= 12000)
+      CUDA_KERNEL_ASSERT(num_groups_ == 1);
+      CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL(
+          1,
+          CacheLogicalDtype::FP8,
+          PositionEmbeddingMode::NOPE,
+          varseq_batch_,
+          varseq_seqpos_,
+          0,
+          0,
+          0,
+          0,
+          block_tables_ptr,
+          page_size,
+          block_tables_b_stride,
+          (varseq_cache_seqpos_
+               .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
+          nullptr,
+          false,
+          0,
+          0,
+          0,
+          0,
+          false,
+          k_norm);
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+#else
+      throw std::runtime_error("CUDA version is older than 12.0");
+#endif
+    } else {
+      CALL_INT4_KERNEL_WITH_KV_GROUPWISE_QUANT_CHECK(
+          CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL,
+          num_groups_,
+          CacheLogicalDtype::INT4,
+          PositionEmbeddingMode::NOPE,
+          varseq_batch_,
+          varseq_seqpos_,
+          0,
+          0,
+          0,
+          0,
+          block_tables_ptr,
+          page_size,
+          block_tables_b_stride,
+          (varseq_cache_seqpos_
+               .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
+          nullptr,
+          false,
+          0,
+          0,
+          0,
+          0,
+          false,
+          k_norm);
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+    }
   }
+  return XQ_O;
 }
 
 at::Tensor nope_qkv_decoding(
@@ -1080,6 +1124,8 @@ at::Tensor nope_qkv_decoding(
     std::optional<at::Tensor> actual_batch_size,
     std::optional<at::Tensor> batch,
     std::optional<at::Tensor> cache_seqpos,
+    int64_t cache_logical_dtype_int,
+    std::optional<int64_t> num_groups,
     std::optional<at::Tensor> qparam_k = std::nullopt,
     std::optional<at::Tensor> qparam_v = std::nullopt,
     bool k_norm = false) {
@@ -1107,7 +1153,8 @@ at::Tensor nope_qkv_decoding(
         static_cast<int64_t*>(actual_batch_size.value().data_ptr());
   }
   auto cache_seqpos_ = cache_seqpos.value_or(seqpos);
-
+  CacheLogicalDtype cache_logical_dtype =
+      static_cast<CacheLogicalDtype>(cache_logical_dtype_int);
   if (cache_K.dtype() == at::kBFloat16) {
     nope_qkv_varseq_prefill_kernel<<<
         blocks,
@@ -1129,9 +1176,8 @@ at::Tensor nope_qkv_decoding(
         actual_batch_size_ptr);
 
     C10_CUDA_KERNEL_LAUNCH_CHECK();
-    return XQ_O;
   } else {
-    // TODO: Pass KV logical Dtype
+    auto num_groups_ = num_groups ? num_groups.value() : 1;
     int32_t* qparam_k_ptr = nullptr;
     int32_t* qparam_v_ptr = nullptr;
     if (qparam_k.has_value()) {
@@ -1142,32 +1188,67 @@ at::Tensor nope_qkv_decoding(
         batch.has_value() ? batch.value().data_ptr<int32_t>() : nullptr;
     auto seqpos_ =
         seqpos.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-    CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL(
-        1,
-        CacheLogicalDtype::FP8,
-        PositionEmbeddingMode::NOPE,
-        batch_,
-        seqpos_,
-        0,
-        0,
-        0,
-        0,
-        block_tables_ptr,
-        page_size,
-        block_tables_b_stride,
-        (cache_seqpos_.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
-        actual_batch_size_ptr,
-        false,
-        0,
-        0,
-        0,
-        0,
-        false,
-        k_norm);
+    if (cache_logical_dtype == CacheLogicalDtype::FP8) {
+#if (defined(USE_ROCM) && ROCM_VERSION >= 60200) || \
+    (defined(CUDA_VERSION) && CUDA_VERSION >= 12000)
+      CUDA_KERNEL_ASSERT(num_groups_ == 1);
+      CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL(
+          1,
+          CacheLogicalDtype::FP8,
+          PositionEmbeddingMode::NOPE,
+          batch_,
+          seqpos_,
+          0,
+          0,
+          0,
+          0,
+          block_tables_ptr,
+          page_size,
+          block_tables_b_stride,
+          (cache_seqpos_
+               .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
+          actual_batch_size_ptr,
+          false,
+          0,
+          0,
+          0,
+          0,
+          false,
+          k_norm);
 
-    C10_CUDA_KERNEL_LAUNCH_CHECK();
-    return XQ_O;
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+#else
+      throw std::runtime_error("CUDA version is older than 12.0");
+#endif
+    } else {
+      CALL_INT4_KERNEL_WITH_KV_GROUPWISE_QUANT_CHECK(
+          CALL_ROPE_XPOS_QKV_VARSEQ_PREFILL_GROUPWISE_KERNEL,
+          num_groups_,
+          CacheLogicalDtype::INT4,
+          PositionEmbeddingMode::NOPE,
+          batch_,
+          seqpos_,
+          0,
+          0,
+          0,
+          0,
+          block_tables_ptr,
+          page_size,
+          block_tables_b_stride,
+          (cache_seqpos_
+               .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()),
+          actual_batch_size_ptr,
+          false,
+          0,
+          0,
+          0,
+          0,
+          false,
+          k_norm);
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+    }
   }
+  return XQ_O;
 }
 
 at::Tensor rope_qkv_varseq_prefill(
@@ -1316,7 +1397,7 @@ at::Tensor rope_qkv_varseq_prefill(
           lo_freq_factor,
           hi_freq_factor,
           write_k_back,
-          false);
+          k_norm);
 
       C10_CUDA_KERNEL_LAUNCH_CHECK();
     }
@@ -1621,7 +1702,7 @@ at::Tensor rope_qkv_decoding(
           lo_freq_factor,
           hi_freq_factor,
           false,
-          false);
+          k_norm);
 
       C10_CUDA_KERNEL_LAUNCH_CHECK();
     }