当使用Load地址计算AVX2指令集(Load address calculation when u

纵观AVX2 intrinsic文档有聚集负载指令，如VPGATHERDD ：

__m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale);

什么是不明确的，以我从文档计算负载地址是否是一个元素地址或字节地址，即在负载地址元素i ：

load_addr = base + index[i] * scale;               // (1) element addressing ?

要么：

load_addr = (char *)base + index[i] * scale;       // (2) byte addressing ?

从英特尔的文档，它看起来像它可能是（2），但是这并没有使给定的，对聚集的负荷最小元素尺寸是32位太大的意义-为什么你想从错位地址负载（即使用规模<4 ）？

Answer 1:

收集的指令没有任何对齐要求。因此，这将是过于严格，不允许字节寻址。

另一个原因是一致性。随着SIB解决我们显然有字节地址：

MOV eax, [rcx + rdx * 2]

由于VPGATHERDD只是这个的矢量变型MOV指令，我们不应该指望什么用VSIB针对不同的：

VPGATHERDD ymm0, [rcx + ymm2 * 2], ymm3

至于现实生活中的使用字节寻址，我们可以有一个24位彩色图像每个像素排列的3个字节。我们可以加载8个像素单VPGATHERDD指令，但只有在VSIB“规模”字段为“1”和VPGATHERDD使用字节寻址。

Answer 2:

由英特尔在描述来看可在这里AVX编程参考文档，它看起来像聚集指令使用字节寻址。具体而言，看到从的描述以下引号VPGATHERDD指令（389页）：

 DISP: optional 1, 2, 4 byte displacement; DATA_ADDR = BASE_ADDR + (SignExtend(VINDEX[i+31:i])*SCALE + DISP;

既然你可以使用1/2/4字节的位移，我将认为总体内存地址是一个字节地址。虽然它可能不是一个普通的应用，有可能是情况下，你会想从一个未对齐的地址读取32位或64位值。这是关于x86架构更灵活的一件事相比，类似ARM的时候; 您必须执行对齐访问，如果你想要的，而不是触发CPU异常，因为有些人做的灵活性。