我写外部脚本到我的笔记本电脑(而不是在亚马逊弹性计算云或任何大型集群)上运行通过Python的mrjob模块MapReduce工作。
我从读mrjob文件 ,我应该使用MRJob.make_runner()
从一个单独的Python脚本如下运行MapReduce工作。
mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
...
但是,我怎么指定要使用的输入文件? 我想用在同一个目录中的文件“datalines.txt”作为我的MapReduce脚本和其他Python脚本,运行图减少。 此外,我怎么指定输出?
我找不到mrjob文档,让我来指定这些参数的函数。