我使用Pool.map
一个进球过程:
- “光标”与数以百万计阵列的来自数据源
- 计算
- 结果保存在数据宿
结果是独立的。
我只是想知道,如果我能避免内存需求。 起初,似乎每个阵列进入蟒蛇,然后在2和3进行。 无论如何,我有一个速度的提高。
#data src and sink is in mongodb#
def scoring(some_arguments):
### some stuff and finally persist ###
collection.update({uid:_uid},{'$set':res_profile},upsert=True)
cursor = tracking.find(timeout=False)
score_proc_pool = Pool(options.cores)
#finaly I use a wrapper so I have only the document as input for map
score_proc_pool.map(scoring_wrapper,cursor,chunksize=10000)
我是不是做错了什么或有使用Python用于此目的的更好的办法?