基于Oozie的文件协调员(Oozie file based coordinator)

2019-10-21 13:58发布

我试图创建一个基于文件相关的协调。 我的目标是,协调应执行只有在创建指定的文件的工作流程。 如果没有创建文件,协调应该等到被创建的文件。 我试图用下面的代码:

<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-23)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
    </workflow>
  </action>     
</coordinator-app>

我开始Oozie的工作,它处于等待状态。 我已经执行,这将创造在HDFS(HDFS在指定的目录结构中的文件(trigger.dat)的脚本://本地主机:9000的/ tmp / revenue_feed / $ {YEAR} / $ {MONTH} / $ {DAY} / $ {HOUR})。 文件得到了创建,还是等待状态。

可以在任何一个可以帮助我在这..

Answer 1:

我已经改变了开始和结束日期,它的工作现在。

该coordinator.xml工作是:

<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-1)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
      <configuration>
        <property>
          <name>property1</name>
          <value>${coord:dataIn('coordInput1')}</value>
        </property>
      </configuration>
    </workflow>
  </action>     
</coordinator-app>

我观察到的几点是:

  1. 预期是基于初始实例的目录结构=“2015-01-12T04:02Z”和频率=“30”的数据集的我们定义。

  2. 不声明如下属性数据集将不会被Oozie的考虑

    <property> <name>property1</name> <value>${coord:dataIn('coordInput1')}</value> </property>

  3. Oozie的总是认为GMT / UTC时区。 虽然安排任何工作流保持GMT记住并相应安排。

  4. 直到目录中创建协调工作将处于运行状态,但工作流程的工作将是在等待状态。



文章来源: Oozie file based coordinator