c++ CUDA GPU上的printf问题

u7up0aaq  于 2023-04-08  发布在  其他
关注(0)|答案(1)|浏览(292)
#include <iostream>
#include <cuda_runtime.h>
#include <cuda_runtime_api.h>

#include <iostream>
#include <cmath>
#include <vector>

using namespace std;

#define HOST __host__
#define DEVICE __device__

template<class L>
__global__ void launch_global (L f0) { f0(); }

template<typename T>
struct Array{
    T* __restrict__ data;

    DEVICE HOST inline
    T& operator()(int i)const noexcept {
        return data[i];
    }
};

int main(){

    int nx = 5;

    auto vec = Array<double>{new double[nx]};

    Array<double> *vec1;
    cudaMallocManaged((void**)&vec1, nx * sizeof(double));

    launch_global<<<1,256>>>([=] DEVICE () noexcept{
        int i = blockDim.x*blockIdx.x+threadIdx.x;
        if(i < nx){
             (*vec1)(i) = 1.0;
             printf("Printing here %d %g\n", i,1.0);
        }
    });

    cudaDeviceSynchronize();

return 0;
}

编译:

nvcc -x cu --expt-extended-lambda --expt-relaxed-constexpr --expt-relaxed-constexpr kernel_test.cpp -o out

问题:

问题是print语句- printf(“Printing here %d %g\n”,i,1.0)没有被执行。但是如果我注解上一行- vec(i)=1.0,那么print命令就会执行。有人能帮我弄清楚为什么吗?
我也试过运行cuda-memcheck。没有错误。

c3frrgcw

c3frrgcw1#

存在各种问题。
首先,这个:

auto vec = Array<double>{new double[nx]};

通过使用new创建一个分配的指针。无论您随后做什么,该指针***将永远无法在设备代码中使用***。这不是使用UM的正确策略。
接下来,您的分配大小在这里没有意义:

cudaMallocManaged((void**)&vec1, nx * sizeof(double));

vec1是指向Array<double>类型的指针。基于sizeof(double)分配大小没有意义。
如果你想使用UM(托管内存)来实现这一点,你将需要处理类对象的分配以及对象中嵌入指针的分配。
您通常会感到困惑,因为您正在分配一个Array<double>对象数组,每个对象都有一个指向double项的嵌入式指针。下面的代码修复了这些问题,并且对我来说似乎可以正确运行:

$ cat t2239.cu
#include <iostream>
#include <cuda_runtime.h>
#include <cuda_runtime_api.h>

#include <iostream>
#include <cmath>
#include <vector>

using namespace std;

#define HOST __host__
#define DEVICE __device__

template<class L>
__global__ void launch_global (L f0) { f0(); }

template<typename T>
struct Array{
    T* __restrict__ data;

    DEVICE HOST inline
    T& operator()(int i)const noexcept {
        return data[i];
    }
};

int main(){

    int nx = 5;

    Array<double> *vec;
    cudaMallocManaged((void**)&vec, sizeof(Array<double>));
    cudaMallocManaged((void**)&(vec[0].data), nx*sizeof(double));

    launch_global<<<1,256>>>([=] DEVICE () noexcept{
        for(int i = blockDim.x*blockIdx.x+threadIdx.x, stride = blockDim.x*gridDim.x;
             i < nx; i += stride){
             vec[0](i) = 1.0;
             printf("Printing here %d %g\n", i,1.0);
        }
    });

    cudaDeviceSynchronize();

return 0;
}
$ nvcc -o t2239 t2239.cu  --extended-lambda -lineinfo
$ compute-sanitizer ./t2239
========= COMPUTE-SANITIZER
Printing here 0 1
Printing here 1 1
Printing here 2 1
Printing here 3 1
Printing here 4 1
========= ERROR SUMMARY: 0 errors
$

相关问题