分配在CUDA设备内存2D阵列(Allocate 2D Array on Device Memory

2019-06-24 05:32发布

如何分配和转移(和从主机)二维数组在设备内存中Cuda的?

Answer 1:

我找到了解决这个问题。 我没有扁平化阵列。

内置的cudaMallocPitch()函数做的工作。 我可以在阵列转移用和从设备cudaMemcpy2D()函数。

例如

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

这产生大小的2D阵列具有作为传递作为参数的节距A * B。

下面的代码创建一个二维数组并遍历的元素。 它编译容易,你可以用它。

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}


Answer 2:

压平:使一维。 看看它是如何做这里



Answer 3:

设备代码可能会更快。 尝试利用线程多。

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

然后你计算块和线程分配合适的,这样每个线程有一个单一的元素交易。



文章来源: Allocate 2D Array on Device Memory in CUDA