facebookresearch
diff --git a/‎pytorch3d/csrc/compositing/alpha_composite.cu
+34-33 b/‎pytorch3d/csrc/compositing/alpha_composite.cu
+34-33
diff --git a/‎pytorch3d/csrc/compositing/norm_weighted_sum.cu
+34-33 b/‎pytorch3d/csrc/compositing/norm_weighted_sum.cu
+34-33
diff --git a/‎pytorch3d/csrc/compositing/weighted_sum.cu
+34-33 b/‎pytorch3d/csrc/compositing/weighted_sum.cu
+34-33
diff --git a/‎pytorch3d/csrc/packed_to_padded_tensor/packed_to_padded_tensor.cu
-1 b/‎pytorch3d/csrc/packed_to_padded_tensor/packed_to_padded_tensor.cu
-1
@@ -1,6 +1,7 @@
 // Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
 
-#include <torch/extension.h>
+#include <ATen/ATen.h>
+#include <ATen/core/TensorAccessor.h>
 
 #include <cuda.h>
 #include <cuda_runtime.h>
@@ -12,10 +13,10 @@
 // Currently, support is for floats only.
 __global__ void alphaCompositeCudaForwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> result,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> result,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = result.size(0);
   const int64_t C = features.size(0);
@@ -61,12 +62,12 @@ __global__ void alphaCompositeCudaForwardKernel(
 // Currently, support is for floats only.
 __global__ void alphaCompositeCudaBackwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> grad_features,
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_alphas,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_outputs,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> grad_features,
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_alphas,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_outputs,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
@@ -131,16 +132,16 @@ __global__ void alphaCompositeCudaBackwardKernel(
   }
 }
 
-torch::Tensor alphaCompositeCudaForward(
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
+at::Tensor alphaCompositeCudaForward(
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
   const int64_t H = points_idx.size(2);
   const int64_t W = points_idx.size(3);
 
-  auto result = torch::zeros({batch_size, C, H, W}, features.options());
+  auto result = at::zeros({batch_size, C, H, W}, features.options());
 
   const dim3 threadsPerBlock(64);
   const dim3 numBlocks(batch_size, 1024 / batch_size + 1);
@@ -149,22 +150,22 @@ torch::Tensor alphaCompositeCudaForward(
   // doubles. Currently, support is for floats only.
   alphaCompositeCudaForwardKernel<<<numBlocks, threadsPerBlock>>>(
       // clang-format off
-      result.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      result.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return result;
 }
 
-std::tuple<torch::Tensor, torch::Tensor> alphaCompositeCudaBackward(
-    const torch::Tensor& grad_outputs,
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
-  auto grad_features = torch::zeros_like(features);
-  auto grad_alphas = torch::zeros_like(alphas);
+std::tuple<at::Tensor, at::Tensor> alphaCompositeCudaBackward(
+    const at::Tensor& grad_outputs,
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
+  auto grad_features = at::zeros_like(features);
+  auto grad_alphas = at::zeros_like(alphas);
 
   const int64_t bs = alphas.size(0);
 
@@ -175,12 +176,12 @@ std::tuple<torch::Tensor, torch::Tensor> alphaCompositeCudaBackward(
   // doubles. Currently, support is for floats only.
   alphaCompositeCudaBackwardKernel<<<numBlocks, threadsPerBlock>>>(
       // clang-format off
-      grad_features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      grad_alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      grad_outputs.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      grad_features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      grad_alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      grad_outputs.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return std::make_tuple(grad_features, grad_alphas);
 
@@ -1,6 +1,7 @@
 // Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
 
-#include <torch/extension.h>
+#include <ATen/ATen.h>
+#include <ATen/core/TensorAccessor.h>
 
 #include <cuda.h>
 #include <cuda_runtime.h>
@@ -14,10 +15,10 @@ __constant__ const float kEpsilon = 1e-4;
 // Currently, support is for floats only.
 __global__ void weightedSumNormCudaForwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> result,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> result,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = result.size(0);
   const int64_t C = features.size(0);
@@ -76,12 +77,12 @@ __global__ void weightedSumNormCudaForwardKernel(
 // Currently, support is for floats only.
 __global__ void weightedSumNormCudaBackwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> grad_features,
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_alphas,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_outputs,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> grad_features,
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_alphas,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_outputs,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
@@ -146,16 +147,16 @@ __global__ void weightedSumNormCudaBackwardKernel(
   }
 }
 
-torch::Tensor weightedSumNormCudaForward(
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
+at::Tensor weightedSumNormCudaForward(
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
   const int64_t H = points_idx.size(2);
   const int64_t W = points_idx.size(3);
 
-  auto result = torch::zeros({batch_size, C, H, W}, features.options());
+  auto result = at::zeros({batch_size, C, H, W}, features.options());
 
   const dim3 threadsPerBlock(64);
   const dim3 numBlocks(batch_size, 1024 / batch_size + 1);
@@ -164,22 +165,22 @@ torch::Tensor weightedSumNormCudaForward(
   // doubles. Currently, support is for floats only.
   // clang-format off
   weightedSumNormCudaForwardKernel<<<numBlocks, threadsPerBlock>>>(
-      result.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      result.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return result;
 }
 
-std::tuple<torch::Tensor, torch::Tensor> weightedSumNormCudaBackward(
-    const torch::Tensor& grad_outputs,
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
-  auto grad_features = torch::zeros_like(features);
-  auto grad_alphas = torch::zeros_like(alphas);
+std::tuple<at::Tensor, at::Tensor> weightedSumNormCudaBackward(
+    const at::Tensor& grad_outputs,
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
+  auto grad_features = at::zeros_like(features);
+  auto grad_alphas = at::zeros_like(alphas);
 
   const int64_t bs = points_idx.size(0);
 
@@ -190,12 +191,12 @@ std::tuple<torch::Tensor, torch::Tensor> weightedSumNormCudaBackward(
   // doubles. Currently, support is for floats only.
   weightedSumNormCudaBackwardKernel<<<numBlocks, threadsPerBlock>>>(
       // clang-format off
-      grad_features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      grad_alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      grad_outputs.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      grad_features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      grad_alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      grad_outputs.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return std::make_tuple(grad_features, grad_alphas);
 
@@ -1,6 +1,7 @@
 // Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
 
-#include <torch/extension.h>
+#include <ATen/ATen.h>
+#include <ATen/core/TensorAccessor.h>
 
 #include <cuda.h>
 #include <cuda_runtime.h>
@@ -12,10 +13,10 @@
 // Currently, support is for floats only.
 __global__ void weightedSumCudaForwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> result,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> result,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = result.size(0);
   const int64_t C = features.size(0);
@@ -58,12 +59,12 @@ __global__ void weightedSumCudaForwardKernel(
 // Currently, support is for floats only.
 __global__ void weightedSumCudaBackwardKernel(
     // clang-format off
-    torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> grad_features,
-    torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_alphas,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> grad_outputs,
-    const torch::PackedTensorAccessor64<float, 2, torch::RestrictPtrTraits> features,
-    const torch::PackedTensorAccessor64<float, 4, torch::RestrictPtrTraits> alphas,
-    const torch::PackedTensorAccessor64<int64_t, 4, torch::RestrictPtrTraits> points_idx) {
+    at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> grad_features,
+    at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_alphas,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> grad_outputs,
+    const at::PackedTensorAccessor64<float, 2, at::RestrictPtrTraits> features,
+    const at::PackedTensorAccessor64<float, 4, at::RestrictPtrTraits> alphas,
+    const at::PackedTensorAccessor64<int64_t, 4, at::RestrictPtrTraits> points_idx) {
   // clang-format on
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
@@ -105,16 +106,16 @@ __global__ void weightedSumCudaBackwardKernel(
   }
 }
 
-torch::Tensor weightedSumCudaForward(
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
+at::Tensor weightedSumCudaForward(
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
   const int64_t batch_size = points_idx.size(0);
   const int64_t C = features.size(0);
   const int64_t H = points_idx.size(2);
   const int64_t W = points_idx.size(3);
 
-  auto result = torch::zeros({batch_size, C, H, W}, features.options());
+  auto result = at::zeros({batch_size, C, H, W}, features.options());
 
   const dim3 threadsPerBlock(64);
   const dim3 numBlocks(batch_size, 1024 / batch_size + 1);
@@ -123,22 +124,22 @@ torch::Tensor weightedSumCudaForward(
   // doubles. Currently, support is for floats only.
   weightedSumCudaForwardKernel<<<numBlocks, threadsPerBlock>>>(
       // clang-format off
-      result.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      result.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return result;
 }
 
-std::tuple<torch::Tensor, torch::Tensor> weightedSumCudaBackward(
-    const torch::Tensor& grad_outputs,
-    const torch::Tensor& features,
-    const torch::Tensor& alphas,
-    const torch::Tensor& points_idx) {
-  auto grad_features = torch::zeros_like(features);
-  auto grad_alphas = torch::zeros_like(alphas);
+std::tuple<at::Tensor, at::Tensor> weightedSumCudaBackward(
+    const at::Tensor& grad_outputs,
+    const at::Tensor& features,
+    const at::Tensor& alphas,
+    const at::Tensor& points_idx) {
+  auto grad_features = at::zeros_like(features);
+  auto grad_alphas = at::zeros_like(alphas);
 
   const int64_t bs = points_idx.size(0);
 
@@ -149,12 +150,12 @@ std::tuple<torch::Tensor, torch::Tensor> weightedSumCudaBackward(
   // doubles. Currently, support is for floats only.
   weightedSumCudaBackwardKernel<<<numBlocks, threadsPerBlock>>>(
       // clang-format off
-      grad_features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      grad_alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      grad_outputs.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      features.packed_accessor64<float, 2, torch::RestrictPtrTraits>(),
-      alphas.packed_accessor64<float, 4, torch::RestrictPtrTraits>(),
-      points_idx.packed_accessor64<int64_t, 4, torch::RestrictPtrTraits>());
+      grad_features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      grad_alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      grad_outputs.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      features.packed_accessor64<float, 2, at::RestrictPtrTraits>(),
+      alphas.packed_accessor64<float, 4, at::RestrictPtrTraits>(),
+      points_idx.packed_accessor64<int64_t, 4, at::RestrictPtrTraits>());
   // clang-format on
 
   return std::make_tuple(grad_features, grad_alphas);
 
@@ -1,7 +1,6 @@
 // Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
 
 #include <ATen/ATen.h>
-#include <torch/extension.h>
 
 // Kernel for inputs_packed of shape (F, D), where D > 1
 template <typename scalar_t>