据“CUDA C编程指南” ,只有在多处理器常量缓存命中(第5.3.2.4)恒定的内存访问的好处1。 否则,就不可能有半warp比读合并的全局内存的情况下,甚至更多的内存请求。 那么,为什么不断的内存大小限制为64 KB?
为了不问两次一个问题。 据我明白,在Fermi架构纹理高速缓冲存储器与L2高速缓存相结合。 质地是否使用还有意义或全局存储器中读取以同样的方式被缓存?
1个 恒定存储器(节5.3.2.4)
常数存储器空间驻留在设备存储器,并且在第F.3.1和F.4.1提到的常数的高速缓存被缓存。
对于计算能力1.x的设备,用于经纱的恒定存储器请求首先被分为两个请求,一个用于每个半经,即独立地发出的。
然后请求被分成许多单独的请求,因为有在初始请求不同的存储器地址,并以等于单独的请求的数量的因子减小的吞吐量。
将得到的请求,然后在吞吐量恒定高速缓存在高速缓存命中的情况下提供服务,或者在可以通过设备存储器的其他方式。