我写了简单的蒙特卡洛π计算的Python程序,采用多模块。 它工作得很好,但是当我通过1E + 10次迭代每个工人,会出现一些问题,其结果是错误的。 我无法理解有什么问题,因为一切都在1E + 9次迭代罚款!
import sys
from multiprocessing import Pool
from random import random
def calculate_pi(iters):
""" Worker function """
points = 0 # points inside circle
for i in iters:
x = random()
y = random()
if x ** 2 + y ** 2 <= 1:
points += 1
return points
if __name__ == "__main__":
if len(sys.argv) != 3:
print "Usage: python pi.py workers_number iterations_per_worker"
exit()
procs = int(sys.argv[1])
iters = float(sys.argv[2]) # 1E+8 is cool
p = Pool(processes=procs)
total = iters * procs
total_in = 0
for points in p.map(calculate_pi, [xrange(int(iters))] * procs):
total_in += points
print "Total: ", total, "In: ", total_in
print "Pi: ", 4.0 * total_in / total
这个问题似乎是多有限制,最大INT它可以传递给子进程的x范围内。 这里有一个快速测试:
import sys
from multiprocessing import Pool
def doit(n):
print n
if __name__ == "__main__":
procs = int(sys.argv[1])
iters = int(float(sys.argv[2]))
p = Pool(processes=procs)
for points in p.map(doit, [xrange(int(iters))] * procs):
pass
现在:
$ ./multitest.py 2 1E8
xrange(100000000)
xrange(100000000)
$ ./multitest.py 2 1E9
xrange(1000000000)
xrange(1000000000)
$ ./multitest.py 2 1E10
xrange(1410065408)
xrange(1410065408)
这是多一个更一般的问题的一部分:它依赖于标准的Python酸洗,有一些小的(而不是有据可查)扩展,传递价值。 当事情出错,要检查的第一件事是,值到达你所期望的方式。
事实上,你可以通过玩看这个问题pickle
,甚至没有接触multiprocessing
(这是情况并非总是如此,因为这些小的扩展,但往往是):
>>> pickle.dumps(xrange(int(1E9)))
'c__builtin__\nxrange\np0\n(I0\nI1000000000\nI1\ntp1\nRp2\n.'
>>> pickle.dumps(xrange(int(1E10)))
'c__builtin__\nxrange\np0\n(I0\nI1410065408\nI1\ntp1\nRp2\n.'
即使没有学习咸菜协议的所有细节,它应该是显而易见的是, I1000000000
在第一种情况是1E9为int,而接下来的情况下相当于块是约1.41E9,不是1E10,作为一个int。 你可以尝试
一个显而易见的解决办法是尝试通过int(iters)
代替xrange(int(iters))
并让calculate_pi
创建xrange
从它的参数。 (注:在某些情况下,这样一个明显的转变会损害性能,也许不好,但在这种情况下,它可能如果有的话,一个简单的对象传递稍微好一点,和你并行的。 xrange
建设和课程的差异是如此的渺小,它可能并不重要。只要确保盲目地转化三思。)
而一个快速测试表明,这种现在工作:
import sys
from multiprocessing import Pool
def doit(n):
print xrange(n)
if __name__ == "__main__":
procs = int(sys.argv[1])
iters = int(float(sys.argv[2]))
p = Pool(processes=procs)
for points in p.map(doit, [iters] * procs):
pass
然后:
$ ./multitest.py 2 1E10
xrange(10000000000)
xrange(10000000000)
但是,你仍然会遇到较大的限制:
$ ./multitest.py 2 1E100
OverflowError: Python int too large to convert to C long
再次,这是相同的基本问题。 解决方法之一就是要通过ARG一路下跌作为一个字符串,并做INT(浮动(A))的子过程中。
作为一个方面说明:原因我做iters = int(float(sys.argv[2]))
而不是仅仅iters = float(sys.argv[2])
然后使用int(iters)
后面是为了避免偶然使用浮子iters
以后值(作为OP的版本确实,在计算total
和因此total_in / total
)。
而且要记住,如果你得到足够大的数字,你运行到C double类型的限制: 1E23
通常99999999999999991611392,不100000000000000000000000。