CUDA并行计算基础代码

时间：2015-06-19 02:05:08 阅读：221 评论：0 收藏：0 [点我收藏+]

#include<cuda_runtime.h>
#include<windows.h>
#include<iostream>
using namespace std;
const int nMax = 30000;
__global__ void addKernel(float *aaa,float *bbb, float *ccc)
{
	int i = blockIdx.x;
	for (int j = 0; j<10000; j++)ccc[i] = aaa[i] * bbb[i];
}
void add(float *a, float *b,float *c,int i){
	for (int j = 0;j<10000;j++)c[i] = a[i] * b[i];
	//return ;
}
int main(){
	float a[nMax], b[nMax], c[nMax];
	float *devA, *devB, *devC;
	clock_t startT, endT;
	for (int i = 0; i < nMax; i++){
		a[i] = i*1.001092653;
		b[i] = i*i;
	}
	cudaMalloc((void**)&devA, nMax*sizeof(float));
	cudaMalloc((void**)&devB, nMax*sizeof(float));
	cudaMalloc((void**)&devC, nMax*sizeof(float));

	cudaMemcpy(devA,a,nMax*sizeof(float),cudaMemcpyHostToDevice);
	cudaMemcpy(devB, b, nMax*sizeof(float), cudaMemcpyHostToDevice);
	startT = clock();
	addKernel<<<nMax,1>>>(devA, devB, devC);
	cout << c[nMax - 1] << endl;
	endT = clock();
	cudaMemcpy(c, devC, nMax*sizeof(float), cudaMemcpyDeviceToHost);
	cout << (float)endT - startT << endl;
	
	for (int i = 0; i < nMax; i++){
		a[i] = i*1.141592653;
		b[i] = i*i;
		c[i] = 0;
	}
	startT = clock();
	for (int i = 0; i < nMax; i++){
		add(a, b, c, i);
	}
	endT = clock();
	cout << endT - startT << endl;
	cin >> a[0];
	return 0;
}

?这里对比了一下并行计算和串行计算，并行计算的优势明显，对于30000*10000的数据量，cpu计算在一毫秒以内，cpu却花费了657毫秒。

但是并行计算主要的瓶颈在于内存和gpu缓存之间通信的开销，数据如下：

在设备上分配内存 ? ? ? ? ? ? 143?

将数据写入设备 ? ? ? ? ? ? ? ? 0

计算 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0

从设备将数据写入主机 ? ? ? 865

如何降低数据通信的开销，还请大牛指教

CUDA并行计算基础代码

原文：http://bbezxcy.iteye.com/blog/2220720

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)