下面是我的流程:
GetFile > ExecuteSparkInteractive > PutFile
我想从文件中读取GetFile
处理器ExecuteSparkInteractive
处理器,采用一些变换,把它放在某个位置。 下面是我的流程
我写了spark scala code
在code
火花处理器的部分:
val sc1=sc.textFile("local_path")
sc1.foreach(println)
没有什么在流动发生。 所以,我怎么能读取使用的GetFile处理器火花处理器的文件。
第2部分:
我想下面的流程只是做法:
ExecuteScript > PutFile > LogMessage
和我所提到下面executescript处理器代码:
readFile = open("/home/cloudera/Desktop/sample/data","r")
for line in readFile:
lines = line.strip()
finalline = re.sub(pattern='((?<=[0-9])[0-9]|(?<=\.)[0-9])',repl='X',string=lines)
readFile = open("/home/cloudera/Desktop/sample/data","w")
readFile.write(finalline)
代码工作正常,但它并没有格式化的数据写入到目标文件夹。 所以我要去哪里错在这里。 另外,我安装在本地计算机大熊猫从executescript处理器用尽大熊猫代码,但nifi不看大熊猫模块。 为什么会这样呢? 我已经尽力了。 另外,我找不到这方面的任何相关的链接在那里我能得到基本流程