Use cudaMemset/hipMemset to setup IndexShuffling kernel. (pytorch#4016)

levendlee · facebook-github-bot · commit 4865e6d5ce1b · 2025-04-25T16:04:53.000-07:00
Summary: Pull Request resolved: pytorch#4016 X-link: facebookresearch/FBGEMM#1104 It is too expensive to launch a ATen kernel to do setup. Use cudaMemset/hipMemset instead. Reviewed By: Alkaid-Benetnash Differential Revision: D73602755
diff --git a/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cu b/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cu
@@ -276,7 +276,13 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> index_shuffling_torch(
   at::Tensor shuffled_expert_indices = allocate_index_tensor(num_tokens);
   at::Tensor shuffled_token_indices = allocate_index_tensor(num_tokens);
 
-  counts.zero_();
+#ifdef USE_ROCM
+  hipMemsetAsync(
+      counts.data_ptr(), 0, counts.numel() * counts.dtype().itemsize());
+#else
+  cudaMemsetAsync(
+      counts.data_ptr(), 0, counts.numel() * counts.dtype().itemsize());
+#endif
 
   // Avoid expensive `cudaGetDeviceProperties` call.
   if (num_sms < 0) {