如何从GetFilesProcessor在NiFi读取文件(how to read files fr

2019-10-28 20:33发布

下面是我的流程:

GetFile > ExecuteSparkInteractive > PutFile

我想从文件中读取GetFile处理器ExecuteSparkInteractive处理器,采用一些变换,把它放在某个位置。 下面是我的流程

我写了spark scala codecode火花处理器的部分:

val sc1=sc.textFile("local_path")
sc1.foreach(println)

没有什么在流动发生。 所以,我怎么能读取使用的GetFile处理器火花处理器的文件。

第2部分:
我想下面的流程只是做法:

ExecuteScript > PutFile > LogMessage

和我所提到下面executescript处理器代码:

readFile = open("/home/cloudera/Desktop/sample/data","r")
for line in readFile:
    lines = line.strip()
    finalline = re.sub(pattern='((?<=[0-9])[0-9]|(?<=\.)[0-9])',repl='X',string=lines)
readFile = open("/home/cloudera/Desktop/sample/data","w")
readFile.write(finalline)  

代码工作正常,但它并没有格式化的数据写入到目标文件夹。 所以我要去哪里错在这里。 另外,我安装在本地计算机大熊猫从executescript处理器用尽大熊猫代码,但nifi不看大熊猫模块。 为什么会这样呢? 我已经尽力了。 另外,我找不到这方面的任何相关的链接在那里我能得到基本流程

Answer 1:

这是不是真的它是如何工作的...的GetFile是本地拿起文件到NiFi节点,并把它们放入NiFi流程进行处理。 ExecuteSparkInteractive揭开序幕远程星火集群上的火花的工作,它不传输数据的火花。 所以,你可能会想放的地方星火可以访问其中的数据,可能的GetFile - > PutHDFS - > ExecuteSparkInteractive。



文章来源: how to read files from GetFilesProcessor in NiFi