CUDA排序Z轴3D阵列C++/Thrust

axkjgtzd  于 2023-01-14  发布在  其他
关注(0)|答案(1)|浏览(161)

我正在寻找排序一个大型三维数组沿着z轴。
示例数组为X x Y x Z(1000x1000x5)
我想沿着z轴排序,所以我会沿着z轴对5个元素执行1000x1000次排序。
编辑更新:尝试使用下面的thrust。它是可用的,我会把输出存储回去,但是这非常慢,因为我在每个(x,y)位置一次排序5个元素:

  1. #include <stdio.h>
  2. #include <stdlib.h>
  3. #include <iostream>
  4. #include <thrust/device_ptr.h>
  5. #include <thrust/sort.h>
  6. #include <thrust/gather.h>
  7. #include <thrust/iterator/counting_iterator.h>
  8. int main(){
  9. int x = 1000, y = 1000, z = 5;
  10. float*** unsorted_cube = new float** [x];
  11. for (int i = 0; i < x; i++)
  12. {
  13. // Allocate memory blocks for
  14. // rows of each 2D array
  15. unsorted_cube[i] = new float* [y];
  16. for (int j = 0; j < y; j++)
  17. {
  18. // Allocate memory blocks for
  19. // columns of each 2D array
  20. unsorted_cube[i][j] = new float[z];
  21. }
  22. }
  23. for (int i = 0; i < x; i++)
  24. {
  25. for (int j = 0; j < y; j++)
  26. {
  27. unsorted_cube[i][j][0] = 4.0f;
  28. unsorted_cube[i][j][1] = 3.0f;
  29. unsorted_cube[i][j][2] = 1.0f;
  30. unsorted_cube[i][j][3] = 5.0f;
  31. unsorted_cube[i][j][4] = 2.0f;
  32. }
  33. }
  34. for (int i = 0; i < 5; i++)
  35. {
  36. printf("unsorted_cube first 5 elements to sort at (0,0): %f\n", unsorted_cube[0][0][i]);
  37. }
  38. float* temp_input;
  39. float* temp_output;
  40. float* raw_ptr;
  41. float raw_ptr_out[5];
  42. cudaMalloc((void**)&raw_ptr, N_Size * sizeof(float));
  43. for (int i = 0; i < x; i++)
  44. {
  45. for (int j = 0; j < y; j++)
  46. {
  47. temp_input[0] = unsorted_cube[i][j][0];
  48. temp_input[1] = unsorted_cube[i][j][1];
  49. temp_input[2] = unsorted_cube[i][j][2];
  50. temp_input[3] = unsorted_cube[i][j][3];
  51. temp_input[4] = unsorted_cube[i][j][4];
  52. cudaMemcpy(raw_ptr, temp_input, 5 * sizeof(float), cudaMemcpyHostToDevice);
  53. thrust::device_ptr<float> dev_ptr = thrust::device_pointer_cast(raw_ptr);
  54. thrust::sort(dev_ptr, dev_ptr + 5);
  55. thrust::host_vector<float> host_vec(5);
  56. thrust::copy(dev_ptr, dev_ptr + 5, raw_ptr_out);
  57. if (i == 0 && j == 0)
  58. {
  59. for (int i = 0; i < 5; i++)
  60. {
  61. temp_output[i] = raw_ptr_out[i];
  62. }
  63. printf("sorted_cube[0,0,0] : %f\n", temp_output[0]);
  64. printf("sorted_cube[0,0,1] : %f\n", temp_output[1]);
  65. printf("sorted_cube[0,0,2] : %f\n", temp_output[2]);
  66. printf("sorted_cube[0,0,3] : %f\n", temp_output[3]);
  67. printf("sorted_cube[0,0,4] : %f\n", temp_output[4]);
  68. }
  69. }
  70. }
  71. }
cbeh67ev

cbeh67ev1#

假设数据的格式为每个xy平面中的值在存储器中连续:data[((z * y_length) + y) * x_length + x](也最适合合并GPU上的内存访问)

  1. #include <thrust/device_vector.h>
  2. #include <thrust/execution_policy.h>
  3. #include <thrust/for_each.h>
  4. #include <thrust/zip_iterator.h>
  5. void sort_in_z_dir(thrust::device_vector<float> &data,
  6. int x_length, int y_length) { // z_length == 5
  7. auto z_stride = x_length * y_length;
  8. thrust::for_each(
  9. thrust::make_zip_iterator(thrust::make_tuple(
  10. data.begin(),
  11. data.begin() + z_stride,
  12. data.begin() + 2 * z_stride,
  13. data.begin() + 3 * z_stride,
  14. data.begin() + 4 * z_stride)),
  15. thrust::make_zip_iterator(thrust::make_tuple(
  16. data.begin() + z_stride,
  17. data.begin() + 2 * z_stride,
  18. data.begin() + 3 * z_stride,
  19. data.begin() + 4 * z_stride,
  20. data.begin() + 5 * z_stride)),
  21. [] __host__ __device__
  22. (thrust::tuple<float, float, float, float, float> &values) {
  23. float local_data[5] = {thrust::get<0>(values),
  24. thrust::get<1>(values),
  25. thrust::get<2>(values),
  26. thrust::get<3>(values),
  27. thrust::get<4>(values)};
  28. thrust::sort(thrust::seq, local_data, local_data + 5);
  29. thrust::get<0>(values) = local_data[0];
  30. thrust::get<1>(values) = local_data[1];
  31. thrust::get<2>(values) = local_data[2];
  32. thrust::get<3>(values) = local_data[3];
  33. thrust::get<4>(values) = local_data[4];
  34. });
  35. }

这个解决方案在硬编码z_length方面确实非常丑陋。人们可以使用一些C++模板-“魔法”将z_length变成一个模板参数,但对于这个关于Thrust的答案来说,这似乎是矫枉过正。
有关数组和元组之间接口的示例,请参见Convert std::tuple to std::array C++11How to convert std::array to std::tuple?
这个解决方案的好处是排序算法本身应该是性能最优的,我不知道thrust::sort是否针对这么小的输入数组进行了优化,但是你可以用我在评论中提出的任何自己编写的排序算法来代替它。
如果你希望能够使用不同的z_length而不遇到这些麻烦,你可能更喜欢这个解决方案,它在全局内存中排序,这远非最优,而且感觉有点笨拙,因为它使用Thrust几乎只是为了启动内核。data[((x * y_length) + y) * z_length + z]

  1. #include <thrust/counting_iterator.h>
  2. #include <thrust/device_vector.h>
  3. #include <thrust/execution_policy.h>
  4. #include <thrust/for_each.h>
  5. void sort_in_z_dir_alternative(thrust::device_vector<float> &data,
  6. int x_length, int y_length, int z_length) {
  7. int n_threads = x_length * y_length;
  8. thrust::for_each(
  9. thrust::make_counting_iterator(0),
  10. thrust::make_counting_iterator(n_threads),
  11. [ddata = thrust::raw_pointer_cast(data.data()), z_length] __host__ __device__ (int idx) {
  12. thrust::sort(thrust::seq,
  13. ddata + z_length * idx,
  14. ddata + z_length * (idx + 1));
  15. });
  16. }

如果您同意将z_length作为模板参数,那么这可能是一个结合了两个领域优点的解决方案(数据格式与第一个示例类似):

  1. #include <thrust/counting_iterator.h>
  2. #include <thrust/device_vector.h>
  3. #include <thrust/execution_policy.h>
  4. #include <thrust/for_each.h>
  5. template <int z_length>
  6. void sort_in_z_dir_middle_ground(thrust::device_vector<float> &data,
  7. int x_length, int y_length) {
  8. int n_threads = x_length * y_length; // == z_stride
  9. thrust::for_each(
  10. thrust::make_counting_iterator(0),
  11. thrust::make_counting_iterator(n_threads),
  12. [ddata = thrust::raw_pointer_cast(data.data()),
  13. z_length, n_threads] __host__ __device__ (int idx) {
  14. float local_data[z_length];
  15. #pragma unroll
  16. for (int i = 0; i < z_length; ++i) {
  17. local_data[i] = ddata[idx + i * n_threads];
  18. }
  19. thrust::sort(thrust::seq,
  20. local_data,
  21. local_data + z_length);
  22. #pragma unroll
  23. for (int i = 0; i < z_length; ++i) {
  24. ddata[idx + i * n_threads] = local_data[i];
  25. }
  26. });
  27. }
展开查看全部

相关问题