CUDA: fixed row rounding for 0 tensor splits (#4594)

JohannesGaessler · web-flow · commit e0a400227390 · 2023-12-23T09:16:33.000+01:00
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -7937,12 +7937,16 @@ static void ggml_cuda_op_mul_mat(
 
             if (id != 0) {
                 row_low[id]  = ne01*g_tensor_split[id];
-                row_low[id] -= row_low[id] % rounding;
+                if (row_low[id] < ne01) {
+                    row_low[id] -= row_low[id] % rounding;
+                }
             }
 
             if (id != g_device_count - 1) {
                 row_high[id]  = ne01*g_tensor_split[id + 1];
-                row_high[id] -= row_high[id] % rounding;
+                if (row_high[id] < ne01) {
+                    row_high[id] -= row_high[id] % rounding;
+                }
             }
         }
     }

Original file line number	Diff line number	Diff line change
`@@ -7937,12 +7937,16 @@ static void ggml_cuda_op_mul_mat(`
`7937`	`7937`
`7938`	`7938`	`if (id != 0) {`
`7939`	`7939`	`row_low[id] = ne01*g_tensor_split[id];`
`7940`		`- row_low[id] -= row_low[id] % rounding;`
	`7940`	`+ if (row_low[id] < ne01) {`
	`7941`	`+ row_low[id] -= row_low[id] % rounding;`
	`7942`	`+ }`
`7941`	`7943`	`}`
`7942`	`7944`
`7943`	`7945`	`if (id != g_device_count - 1) {`
`7944`	`7946`	`row_high[id] = ne01*g_tensor_split[id + 1];`
`7945`		`- row_high[id] -= row_high[id] % rounding;`
	`7947`	`+ if (row_high[id] < ne01) {`
	`7948`	`+ row_high[id] -= row_high[id] % rounding;`
	`7949`	`+ }`
`7946`	`7950`	`}`
`7947`	`7951`	`}`
`7948`	`7952`	`}`