使用hwloc物理ID建立MPI rankfile(Using hwloc physical

2019-07-20 12:15发布

我不知道怎么用,我已经从hwloc检索到的物理ID。 例如,我看到以下,但如果我把rank 0=10.0.2.4 slot=1:8的rankfile我得到一个错误8不存在。 然而, rank 0=10.0.2.4 slot=1:p8没有问题,运行,但我不知道是否我引用PU#8Core P#8 。 如何绑定到任何一个特定的核心或使用rankfile特定的硬件线程? 有没有一些方法,我可以调试呢?

[hamiltont@4 latency]$ hwloc-ls -p
Machine (36GB)
  NUMANode P#0 (18GB) + Socket P#1 + L3 (12MB)
    L2 (256KB) + L1 (32KB) + Core P#0
      PU P#0
      PU P#12
    L2 (256KB) + L1 (32KB) + Core P#1
      PU P#2
      PU P#14
    L2 (256KB) + L1 (32KB) + Core P#2
      PU P#4
      PU P#16
    L2 (256KB) + L1 (32KB) + Core P#8
      PU P#6
      PU P#18
    L2 (256KB) + L1 (32KB) + Core P#9
      PU P#8
      PU P#20
    L2 (256KB) + L1 (32KB) + Core P#10
      PU P#10
      PU P#22
  NUMANode P#1 (18GB) + Socket P#0 + L3 (12MB)
    L2 (256KB) + L1 (32KB) + Core P#0
      PU P#1
      PU P#13
    L2 (256KB) + L1 (32KB) + Core P#1
      PU P#3
      PU P#15
    L2 (256KB) + L1 (32KB) + Core P#2
      PU P#5
      PU P#17
    L2 (256KB) + L1 (32KB) + Core P#8
      PU P#7
      PU P#19
    L2 (256KB) + L1 (32KB) + Core P#9
      PU P#9
      PU P#21
    L2 (256KB) + L1 (32KB) + Core P#10
      PU P#11
      PU P#23

我认为这个问题是相当接近我问什么我,但并不完全一样。

Answer 1:

因此,有一个PU编号23,但这个数字没有核心,所以如果有参考号码23则MPI正在试图获得一个核心的错误。

# No errors, so this is referencing a PU
rank 1=10.0.2.4 slot=1:p23
# No errors, so we are referencing a PU
rank 1=10.0.2.4 slot=p1:p23
# Error! We might be referencing a core
rank 1=10.0.2.4 slot=p1:23
# No error, we are probably referencing physical socket 1 and physical core 8
rank 1=10.0.2.4 slot=p1:8


文章来源: Using hwloc physical ID to build MPI rankfile
标签: mpi