当前位置: 首页 > news >正文

[7] CUDA之常量内存与纹理内存

CUDA之常量内存与纹理内存

1. 常量内存

  • NVIDIA GPU卡从逻辑上对用户提供了 64KB 的常量内存空间,可以用来存储内核执行期间所需要的恒定数据
  • 常量内存对一些特定情况下的小数据量的访问具有相比全局内存的额外优势,使用常量内存也一定程序上减少了对全局内存的带宽占用
  • 常量内存具有 cache 缓冲
  • 下边例举一个简单的程序进行 a * x + b 的数学运算
#include "stdio.h"
#include<iostream>
#include <cuda.h>
#include <cuda_runtime.h>
//Defining two constants
__constant__ int constant_f;
__constant__ int constant_g;
#define N	5
//Kernel function for using constant memory
__global__ void gpu_constant_memory(float *d_in, float *d_out) {//Thread index for current kernelint tid = threadIdx.x;	d_out[tid] = constant_f*d_in[tid] + constant_g;
}
  • 常量内存中的变量使用 __constant__ 关键字修饰
  • 使用 cudaMemcpyToSymbol 函数吧这些常量复制到内核执行所需要的常量内存中
  • 常量内存应合理使用,不然会增加程序执行时间
  • 主函数调用如下:
int main(void) {//Defining Arrays for hostfloat h_in[N], h_out[N];//Defining Pointers for devicefloat *d_in, *d_out;int h_f = 2;int h_g = 20;// allocate the memory on the cpucudaMalloc((void**)&d_in, N * sizeof(float));cudaMalloc((void**)&d_out, N * sizeof(float));//Initializing Arrayfor (int i = 0; i < N; i++) {h_in[i] = i;}//Copy Array from host to devicecudaMemcpy(d_in, h_in, N * sizeof(float), cudaMemcpyHostToDevice);//Copy constants to constant memorycudaMemcpyToSymbol(constant_f, &h_f, sizeof(int),0,cudaMemcpyHostToDevice);cudaMemcpyToSymbol(constant_g, &h_g, sizeof(int));//Calling kernel with one block and N threads per blockgpu_constant_memory << <1, N >> >(d_in, d_out);//Coping result back to host from device memorycudaMemcpy(h_out, d_out, N * sizeof(float), cudaMemcpyDeviceToHost);//Printing result on consoleprintf("Use of Constant memory on GPU \n");for (int i = 0; i < N; i++) {printf("The expression for input %f is %f\n", h_in[i], h_out[i]);}//Free up memorycudaFree(d_in);cudaFree(d_out);return 0;
}

在这里插入图片描述

2. 纹理内存

  • 纹理内存时另外一种当数据的访问具有特定的模式的时候能够加速程序执行,并减少显存带宽的制度存储器,像常量内存一样,它也在芯片内部被cache 缓冲
  • 该存储器最初是为了图像绘制而设计的,但也可以被用于通过计算
  • 当程序进行具有很大程序上的空间临近性的访存的时候,这种存储器变得非常高效。空间临近性的意思是:每个现成的读取位置都和其他现成的读取位置临近,这对那些需要处理4个临近的相关点和8个临近的点的图像处理应用非常有用。一种线程进行2D的平面空间临近性的访存的例子,可能会像下表:
    在这里插入图片描述
  • 通用的全局内存的cache将不能有效处理这种空间临近性,可能会导致进行大量的显存读取传输。纹理存储器被设计成能够利用这种方寸模型,这样它只会从显存读取1次,然后缓冲掉,因此执行速度会快得多
  • 纹理内存支持2D和3D的纹理读取操作,但编程可能没有那么容易
  • 下边给出一个通过纹理内存进行数组赋值的例子:
#include "stdio.h"
#include<iostream>
#include <cuda.h>
#include <cuda_runtime.h>
#define NUM_THREADS 10
#define N 10//纹理内存定义
texture <float, 1, cudaReadModeElementType> textureRef;
__global__ void gpu_texture_memory(int n, float *d_out)
{int idx = blockIdx.x*blockDim.x + threadIdx.x;if (idx < n) {float temp = tex1D(textureRef, float(idx));d_out[idx] = temp;}
}int main()
{//Calculate number of blocks to launchint num_blocks = N / NUM_THREADS + ((N % NUM_THREADS) ? 1 : 0);//Declare device pointerfloat *d_out;// allocate space on the device for the resultcudaMalloc((void**)&d_out, sizeof(float) * N);// allocate space on the host for the resultsfloat *h_out = (float*)malloc(sizeof(float)*N);//Declare and initialize host arrayfloat h_in[N];for (int i = 0; i < N; i++) {h_in[i] = float(i);}//Define CUDA ArraycudaArray *cu_Array;cudaMallocArray(&cu_Array, &textureRef.channelDesc, N, 1);//Copy data to CUDA Array,(0,0)表示从左上角开始cudaMemcpyToArray(cu_Array, 0, 0, h_in, sizeof(float)*N, cudaMemcpyHostToDevice);// bind a texture to the CUDA arraycudaBindTextureToArray(textureRef, cu_Array);//Call Kernel	gpu_texture_memory << <num_blocks, NUM_THREADS >> >(N, d_out);// copy result back to hostcudaMemcpy(h_out, d_out, sizeof(float)*N, cudaMemcpyDeviceToHost);printf("Use of Texture memory on GPU: \n");for (int i = 0; i < N; i++) {printf("Texture element at %d is : %f\n",i, h_out[i]);}free(h_out);cudaFree(d_out);cudaFreeArray(cu_Array);cudaUnbindTexture(textureRef);}
  • 纹理引用是通过 texture<> 类型的变量进行定义的,定义是的三个参数意思是:
texture <p1, p2, p3> textureRef;
p1: 纹理元素的类型
p2: 纹理引用的类型,可以是1D,2D,3D的
p3:读取模式,是个可选参数,用来说明是否要执行读取时候的自动类型转换
  • 一定要确保纹理引用被定义成全局静态变量,同时还要确保它不能作为参数传递给任何其他函数
  • cudaBindTextureToArray 函数将纹理引用和CUDA数组进行绑定
  • 运行结果如下:
    在这里插入图片描述
  • ------ end------

相关文章:

  • Java——图书管理系统万字详解(附代码)
  • 树莓派4B 有电但无法启动
  • 几种常用的配置文件格式对比分析——ini、json、xml、toml、yaml
  • 2024年5月20日优雅草蜻蜓API大数据服务中心v2.0.4更新
  • 26.synchronized和ReentrantLock的区别
  • 初步认识栈和队列
  • 网络安全等级保护:正确配置 Linux
  • 38、Flink 的窗口触发器(Triggers)详解
  • html5网页-浏览器中实现高德地图定位功能
  • 生产制造边角料核算说明及ODOO演示
  • Adobe Bridge BR v14.0.3 安装教程 (多媒体文件组织管理工具)
  • LabelMe下载及关键点检测数据标注
  • 【全开源】海报在线制作系统源码(ThinkPHP+FastAdmin+UniApp)
  • STM32手写超频到128M函数
  • 嵌入式0基础开始学习 ⅠC语言(7)指针
  • 深入了解以太坊
  • angular学习第一篇-----环境搭建
  • chrome扩展demo1-小时钟
  • Javascript Math对象和Date对象常用方法详解
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • JavaScript创建对象的四种方式
  • mysql外键的使用
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • Redis字符串类型内部编码剖析
  • 阿里云应用高可用服务公测发布
  • 程序员该如何有效的找工作?
  • 大主子表关联的性能优化方法
  • 给Prometheus造假数据的方法
  • 记录:CentOS7.2配置LNMP环境记录
  • 面试总结JavaScript篇
  • 使用 5W1H 写出高可读的 Git Commit Message
  • 以太坊客户端Geth命令参数详解
  • 译自由幺半群
  • ​ssh免密码登录设置及问题总结
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • #Datawhale AI夏令营第4期#多模态大模型复盘
  • #QT(TCP网络编程-服务端)
  • (9)STL算法之逆转旋转
  • (苍穹外卖)day03菜品管理
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (转)3D模板阴影原理
  • .babyk勒索病毒解析:恶意更新如何威胁您的数据安全
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .Net 4.0并行库实用性演练
  • .NET Core 中的路径问题
  • .net 程序发生了一个不可捕获的异常
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .net连接MySQL的方法
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc
  • /etc/fstab 只读无法修改的解决办法
  • @requestBody写与不写的情况
  • [《百万宝贝》观后]To be or not to be?
  • [C++提高编程](三):STL初识