-->

是否每个浮点运算同时服用?(Does each Floating point operation t

2019-09-30 10:04发布

我相信整数加法或减法总是同时无论操作数有多大。 所需的ALU的输出被稳定可以通过输入操作数而变化,但是CPU元件时,它利用ALU输出将等待足够长的时间,以使任何整数操作将在SAME周期被处理。 (所需的周期为ADD,SUB,MUL和DIV会有所不同,但ADD将采取同样的循环,无论输入操作数,我想的)。

这是真正的浮点运算,太?

我试图实施方案,其中包括大量的浮点运算。 我不知道这是有帮助的规模我处理的快速运行时间的数字。

Answer 1:

TL:DR:避免非正规号码和你的罚款 。 如果你不需要渐进下溢,将非正规数为零,冲洗要在x86 MXCSR零位,或者类似的其他架构。 在大多数的CPU,产生非规格化结果陷阱微码,所以它需要数百个循环而不是5的。

见昂纳雾的insn的表用于x86 CPU的细节,也是x86的标签维基。


这取决于你的CPU上,而是典型的现代的FPU都在这方面类似。

除了非正规操作数, 延迟/吞吐量加/减/ MUL操作是不依赖于数据的典型的现代的FPU(包括x86,ARM和其他)。 他们通常是完全流水,但多周期的延迟(即新MUL可以开始执行每一个周期,如果其输入是准备好),这使得乱序调度可变延迟不方便。

可变等待时间将意味着两个输出将在同一个周期就绪,击败的完全流水线它的目的,并使其无法调度可靠地避免冲突等它具有已知但混合延迟指令/微指令处理时一般不会。 ( 这些讲义关于阶管线展示如何这对回写(WB)构造风险 ,但同样的想法适用于ALU本身需要一个额外的缓冲,直到可以用手关闭所有的结果已经就绪。)

作为对频谱的高性能端的示例: 英特尔Haswell的

  • mulpd (标量,双精度128B或256B向量):5c中的延迟,每两个1C吞吐量(两个单独的ALU)。
  • FMA:5C延迟,每两个1C吞吐量
  • addpd / subpd :3C延迟,每1C吞吐量之一。 (但是,该加载单元是相同的端口上与MUL / FMA单元之一)
  • divpd (标量或128B-载体):10〜20℃的等待时间,每8-14c吞吐量之一。 (另外,相同的端口MUL / FMA单元之一上)。 对于较慢256B向量(在div ALU不是全宽度)。 稍快的float S,不像加/减/ MUL。
  • sqrtpd :16C延迟,每8-14c吞吐量之一。 同样不实际的宽度,更快float
  • rsqrtps (快非常近似的,仅适用于float ):5C延迟,每1℃吞吐量之一。

DIV / SQRT是例外:他们的吞吐量和延迟是数据依赖

有用于股利或开方没有快速并行算法, 即使是在硬件 。 某种迭代计算的需要,因此完全流水线将需要复制大量非常相似的硬件中,每个流水线阶段。 不过,现代的英特尔x86 CPU的有部分流水线股利和开方,以互惠吞吐量不到延迟。

相比于MUL,DIV / SQRT具有更低的吞吐量(〜1/10或更差),并显著较高的延迟(〜2倍至4倍)。 在现代的FPU的DIV /开方单元的未完全流水线性质意味着它可以是可变等待时间而不在​​ALU输出端口造成太多的冲突。

SSE / AVX没有实现正弦/余弦/ EXP /日志为单一的指令; 数学库应自己的代码。

许多优秀的数学库没有使用的x87 fsin SSE存在两种甚至之前; 它的微码上的所有现有的实现,因此内部实现使用相同的80位加/减/ MUL / DIV /开方的硬件,您可以用简单的指令的程序; 有没有专门的fsin硬件(或至少没有太多;也许查找表)。 同样对于大多数其他TRIG /超然的x87类似功能fyl2x

这将是很好,如果有一些专门的fsin硬件,因为范围内还原到+/-π/ 2可以真正从更高的精度受益输入π/ 2的非常接近的倍数。 fsin使用相同的80位丕恒(64位尾数),您从中获取fldpi 。 这是最接近的可表示long double到Pi的准确值,有缘接下来的两个二进制数字是零,所以它实际上是精确到66位。 但它仍然导致的1.37千万亿单位在最后的地方最坏情况的最大误差,留下少于四位正确 。 ( 布鲁斯·道森的一系列有关浮点的文章是优秀的 ,你一定要读他们,如果你要写一些浮点代码。 指数在这一个。 )

英特尔不能改善的x87的范围还原精度fsin不中断与现有的CPU数值的兼容性。 这绝对有助于不同的x86处理器上运行以相同的输入相同的指令时,给数值相同的结果。 在软件中,你可以做的范围,减少自己与扩展精度浮点,像所谓的两双获得四精度(但仍然只的指数范围内double )。 双人大床可以用SSE2填充双重指示相当有效地实施。 一个SSE2库实现的fsin可能去时速超过精度和作出同样的折衷为的x87硬件; 仅使用常规的double减少范围丕恒,导致在最坏的情况下,较大的误差。 这将是对于一些使用情况的有效的选择,这是软件的一个很大的优势:你可以选择你的用例合适的软件实现。

IDK有关的x87 EXP或登录指令,像fyl2x 。 他们是微编​​码的,所以他们没有什么特别的速度,但可能是确定的准确性。 尽管如此,现代数学库不会从XMM寄存器复制值X87只是该指令。 该指令的x87可能比你可以用正常的SSE运算指令做慢。 (而且几乎可以肯定不是更快。)


欲了解更多有关快速互惠和快速倒数平方根,请参阅为什么SSE标量的sqrt(x)的比rsqrt(X)* X慢?

RSQRTPS用牛顿-拉夫逊迭代略比正常sqrtps不太准确。 在英特尔的Haswell / SKYLAKE微架构,这是大致相同的延迟IIRC,但可能有更好的吞吐量。 如果没有NR迭代,这对于大多数应用太不精确。

无论如何,这已经得到了相当的x86特定的。 穆尔主场迎战开方的相对性能在很大程度上取决于CPU微架构,但即使隔着86主场迎战ARM与硬件的FPU其他大多数现代的CPU,你会发现, muladd的性能是不依赖于数据。



文章来源: Does each Floating point operation take the same time?