我试图找到32个元件(每个1个字节的数据)的Intel i3处理器的总和减少。 我这样做:
s=0;
for (i=0; i<32; i++)
{
s = s + a[i];
}
然而,它的花费更多的时间,因为我的应用程序是需要少得多的时间内实时应用。 请注意,最后的总和可能会超过255个。
有没有一种方法,我可以实现这个使用低级别SIMD SSE2指令集? 不幸的是我从来没有使用SSE。 我试图寻找此目的SSE2功能,但它也无法使用。 难道(SSE)保证减少计算时间,这样一个小规模的问题?
有什么建议??
注:我已经实现了使用OpenCL和CUDA类似的算法和伟大的工作,但只有当问题规模是很大的。 对于小型的问题开销的费用为多。 不知道它是如何工作的SSE
你可以滥用PSADBW
快速计算小的水平款项。
事情是这样的:(未测试)
pxor xmm0, xmm0
psadbw xmm0, [a + 0]
pxor xmm1, xmm1
psadbw xmm1, [a + 16]
paddw xmm0, xmm1
pshufd xmm1, xmm0, 2
paddw xmm0, xmm1 ; low word in xmm0 is the total sum
尝试内部函数的版本:
我从来没有使用内在所以这段代码可能是没有任何意义。 拆卸看起来不错,但。
uint16_t sum_32(const uint8_t a[32])
{
__m128i zero = _mm_xor_si128(zero, zero);
__m128i sum0 = _mm_sad_epu8(
zero,
_mm_load_si128(reinterpret_cast<const __m128i*>(a)));
__m128i sum1 = _mm_sad_epu8(
zero,
_mm_load_si128(reinterpret_cast<const __m128i*>(&a[16])));
__m128i sum2 = _mm_add_epi16(sum0, sum1);
__m128i totalsum = _mm_add_epi16(sum2, _mm_shuffle_epi32(sum2, 2));
return totalsum.m128i_u16[0];
}
这是一个有点啰嗦,但它应该仍然比标量代码至少快两倍:
uint16_t sum_32(const uint8_t a[32])
{
const __m128i vk0 = _mm_set1_epi8(0); // constant vector of all 0s for use with _mm_unpacklo_epi8/_mm_unpackhi_epi8
__m128i v = _mm_load_si128(a); // load first vector of 8 bit values
__m128i vl = _mm_unpacklo_epi8(v, vk0); // unpack to two vectors of 16 bit values
__m128i vh = _mm_unpackhi_epi8(v, vk0);
__m128i vsum = _mm_add_epi16(vl, vh);
v = _mm_load_si128(&a[16]); // load second vector of 8 bit values
vl = _mm_unpacklo_epi8(v, vk0); // unpack to two vectors of 16 bit values
vh = _mm_unpackhi_epi8(v, vk0);
vsum = _mm_add_epi16(vsum, vl);
vsum = _mm_add_epi16(vsum, vh);
// horizontal sum
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 8));
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 4));
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 2));
return _mm_extract_epi16(vsum, 0);
}
需要注意的是a[]
需要进行16字节对齐。
您可以在上面的代码中使用可能提高_mm_hadd_epi16
。