当前位置：首页 > news >正文

武汉疾控最新发布搜索引擎优化岗位

news 2025/7/7 10:30:56

武汉疾控最新发布,搜索引擎优化岗位,上海做门户网站的公司,上海网站设计培训班1. 引言前序博客： CUDA简介——基本概念 CPU是用于控制的。即，host控制整个程序流程： 1）程序以Host代码main函数开始，然后顺序执行。 Host代码是顺序执行的，并执行在CPU之上。Host代码会负责Launch ke…

1. 引言

前序博客：

CUDA简介——基本概念

CPU是用于控制的。即，host控制整个程序流程：

1）程序以Host代码main函数开始，然后顺序执行。
- Host代码是顺序执行的，并执行在CPU之上。
- Host代码会负责Launch kernel。
2）对于想转移给CPU执行的代码，称为Device代码，通过Launch kernel来实现：
- Device代码是并行执行的，并执行在GPU之上。
- kernel做为a grid运行在Device端。
- Device端程序会立即返回给Host。即，除非明确要求，Host并不会等待Device执行完成后才再执行后续Host代码。【因此，如需收集特定kernel launch Device程序的执行结果，需在host代码中创建明确的barrier，让main c函数等待kernel执行完成再继续执行后续代码。】

在这里插入图片描述

launch kernel时的语法规则为：

与常规C函数调用类似
需指定配置参数grid_size和block_size，二者均为dim3 CUDA数据结构，默认均为(1,1,1)。

launch kernel示例如：
在这里插入图片描述

从Host角度来看，实际更详细的程序流为：

1）程序以Host代码main函数开始，然后顺序执行。
- Host代码是顺序执行的，并执行在CPU之上。
- 为kernel launch做准备【Host和Device内存是独立的】：Host与Device之间的数据拷贝至关重要，且是程序性能主要限制因素。
  - 分配Device内存：cudaMalloc(...)。
  - 将Host上数据拷贝到Device上：cudaMemcpy(...)，即将数据由CPU拷贝到GPU之上。
- Host代码会负责Launch kernel：在GPU上并行执行Threads。
- 为获取kernel执行结果，需将Device数据拷贝到Host上：cudaMemcpy(...)。

在这里插入图片描述
其中，Device内存管理：

与C中内存管理类似：C中内存分配用malloc(...)，内存释放用free(...)。
CUDA Device内存管理为：
- 内存分配用cudaMalloc(LOCATION, SIZE)：
  - LOCATION：Device上分配内存的内存位置，为某GPU内存地址。
  - size：为分配的字节数。
- 内存释放用cudaFree()。

Device和Host之间数据拷贝：

使用cudaMemcpy(dst, src, numBytes, direction)：
- dst：拷贝目标地址
- src：拷贝源地址
- numBytes：拷贝字节数。numBytes = N*sizeof(type)
- direction：拷贝方向。
  - cudaMemcpyHostToDevice：由Host拷贝数据到Device。
  - cudaMemcpyDeviceToHost：由Device拷贝数据到Host。

总体的完整流程为：