c++ CUBLAS_STATUS_INVALID_VALUE

zsbz8rwp 于 2023-06-25 发布在其他

关注(0)|答案(1)|浏览(136)

我正在使用cublasSgemmStridedBatched API进行所谓的“Tensor收缩”。我有形状为60000*20*9的TensorA和形状为9*32的TensorB，它们都是行主的。根据定义，C = A * B应该给予形状为60000*20*32的结果TensorC。我写的代码如下：

int batch_count = 60000;
    int M = 20;
    int K = 9;
    int N = 32;
    cublasHandle_t handle;
    cublasCreate(&handle);
    float alpha = 1.0;
    float beta = 0.0;
    int strideA = 20 * 9;
    int strideB = 0;
    int strideC = 20 * 32;
    // A(60000 * 20 * 9) * B(9 * 32) = C(60000 * 20 * 32)
    cublasStatus_t ret = cublasSgemmStridedBatched(
                              handle, 
                              CUBLAS_OP_N, //transposed, since in row-major
                              CUBLAS_OP_N, //transposed, since in row-major
                              N,
                              M,
                              K,
                              &alpha,
                              B.data<float>(), //already in GPU 
                              N, // lda, transposed
                              strideB, 
                              A.data<float>(), //already in GPU 
                              K, // ldb, transposed
                              strideA, 
                              &beta, 
                              C.data<float>(),//already in GPU 
                              N, // ldc
                              strideC, 
                              batchCount);
    cublasDestroy(handle);
    if(ret != CUBLAS_STATUS_SUCCESS){
      printf("cublasSgemmStridedBatched failed %d line (%d)\n", ret, __LINE__);
    }

上面的代码无法完成工作，并一直显示cublasSgemmStridedBatched failed 7，根据manual，CUBLAS_STATUS_INVALID_VALUE代表CUBLAS_STATUS_INVALID_VALUE。任何帮助或建议是赞赏！

c++

来源：https://stackoverflow.com/questions/76495454/cublas-status-invalid-value

1条答案

按热度按时间

2ul0zpep1#

下面是一个最小的版本，它可以工作并测试结果：

#include <cuda_runtime.h>
#include <cublas_v2.h>
#include <cstdio>
#include <Eigen/Dense>
int main()
{
  cublasHandle_t cubl;
  cublasCreate(&cubl);
  int batch_count = 60000;
  int M = 20;
  int K = 9;
  int N = 32;
  float* A, *B, *C;
  cudaMallocManaged(&A, sizeof(float) * batch_count * M * K);
  cudaMallocManaged(&B, sizeof(float) * K * N);
  cudaMallocManaged(&C, sizeof(float) * batch_count * M * N);
  for(int b = 0; b < batch_count; ++b)
    for(int m = 0; m < M; ++m)
      for(int k = 0; k < K; ++k)
    A[((b * M) + m) * K + k] = (float)(b + 1) * (m + 2) * (k + 3) / (M*N*K);
  for(int k = 0; k < K; ++k)
    for(int n = 0; n < N; ++n)
      B[k * N + n] = (float) (k + 1) * (n + 2) / (N*K);
  const float alpha = 1.f, beta = 0.f;
  const int strideA = K * M, strideB = 0, strideC = M * N;
  cublasStatus_t ret = cublasSgemmStridedBatched(
    cubl, CUBLAS_OP_N, CUBLAS_OP_N, N, M, K, &alpha,
    B, N /*lda*/, strideB,
    A, K /*ldb*/, strideA, &beta,
    C, N /*ldc*/, strideC, batch_count);
   if(ret != CUBLAS_STATUS_SUCCESS)
     std::printf("cublasSgemmStridedBatched failed %d line (%d)\n",
                 ret, __LINE__);
   cudaError_t curet = cudaDeviceSynchronize();
   std::printf("Device sync: %d\n", ret);
   Eigen::ArrayXXf reference, error = Eigen::ArrayXXf::Zero(N, M);
   const auto B_map = Eigen::MatrixXf::Map(B, N, K);
   for(int b = 0; b < batch_count; ++b) {
     const auto A_map = Eigen::MatrixXf::Map(A + strideA * b, K, M);
     reference.matrix().noalias() = B_map * A_map;
     const auto C_map = Eigen::ArrayXXf::Map(C + strideC * b, N, M);
     const auto rel_error = (C_map - reference).abs() /
           C_map.abs().max(reference.abs());
     error = error.max(rel_error);
   }
   std::printf("Max relative error %g\n", error.maxCoeff());
}

报告最大相对误差为2.5e-7

展开查看全部

赞(0）回复(0）举报 2023-06-25

我来回答

c++ CUBLAS_STATUS_INVALID_VALUE

1条答案

相关问题

热门标签

最新问答