文章出處

azkaban作業參數使用介紹

參數傳遞是調度系統工作流運行時非常重要的一部分,工作流的執行,單個作業的執行,多個工作流之間的依賴執行,歷史任務重算,都涉及參數傳遞和同步。

azkaban的工作流中的參數可以分為如下幾個類型:azkaban UI 頁面輸入參數, 環境變量參數,
job作業文件中定義的參數,工作流的用戶定義的屬性文件,上游作業傳遞給下游的參數,
工作流運行時產生的系統參數,job的common參數等。

參數的作業范圍分類,對當前job有效局部有效,對整個工作流全局有效。

參數類型 參數的作用域
UI 頁面輸入參數 ,即工作流參數 flow全局有效
工作流ZIP壓縮包中的屬性文件 flow全局有效,zip文件目錄以及子目錄有效
工作流運行時參數 flow全局有效
環境變量參數 flow全局有效
job的common參數 job內局部有效
JOB文件中定義的參數 job內局部有效
上游作業傳遞給下游的參數 job內局部有效

全局參數,在整個工作流的作業文件配置中,都可以通過 ${參數名} 的方式引用使用。

1. Job配置中的參數

  • common參數配置

除了type,command,decpendencies三個參數外,還有如下一些保留參數可以為每個job配置

參數 說明
retries 失敗的job的自動重試的次數
retry.backoff 重試的間隔(毫秒)
working.dir 指定命令被調用的目錄。默認的working目錄是executions/${execution_ID}目錄
env.property 指定在命令執行前需設置的環境變量。Property定義環境變量的名稱,
因此 env.VAR_NAME=VALUE就創建了一個$VAR_NAME環境變量
并且指定了它的VALUE
failure.emails job失敗時發送的郵箱,用逗號隔開
success.emails job成功時發送的郵箱,用逗號隔開
notify.emails job成功或失敗都發送的郵箱,用逗號隔開

一個flow的email屬性,只會取最后一個job的配置,其他的job的email配置將會被忽略。

用戶也可以自用一下參數,用于接收外部或者上游job的參數,也可用于傳遞給shell腳本等。

  • Runtime 屬性

這些屬性在job運行期間自動被添加.

參數 說明
azkaban.job.attempt job重試次數,從0開始增加
azkaban.job.id 運行的job name
azkaban.flow.flowid 運行的job的flow name
azkaban.flow.execid flow的執行id
azkaban.flow.projectid 工程id
azkaban.flow.projectversion project上傳的版本
azkaban.flow.uuid flow uuid
azkaban.flow.start.timestamp flow start的時間戳
azkaban.flow.start.year flow start的年份
azkaban.flow.start.month flow start 的月份
azkaban.flow.start.day flow start 的天
azkaban.flow.start.hour flow start的小時
azkaban.flow.start.minute start 分鐘
azkaban.flow.start.second start 秒
azkaban.flow.start.millseconds start的毫秒
azkaban.flow.start.timezone start 的時區
  • 參數繼承

    后綴名為.properties的文件將會作為參數文件加載,并且為flow中每個job所共享,屬性文件通過目錄的分層結構繼承
    比如,在zip包中有以下結構

    system.properties
    baz.job
    myflow/
          myflow.properties
          myflow2.properties
          foo.job
          bar.job

    system.properties是全局的屬性,將會被baz.job和myflow目錄下的foo.job和bar.job使用,但是baz.job不會繼承myflow.properties和myflow2.properties的屬性,因為是它的下層.

  • 參數替換

    azkaban支持參數替換;替換參數樣式: azkaban會替換{}中的參數。無論${parameterName} 在job file中或者在參數文件中或者運行時參數發現,都可以被替換為對應的值。

    # shared.properties
    replaceparameter=bar
    # myjob.job
    param1=mytest
    foo=${replaceparameter} #${replaceparameter}會替換為bar
    param2=${param1}   # ${param1} 會被替換成mytest。

    前面這個例子,在myjob 作業運行前,foo 會被賦值為bar , param2會被賦值為mytest.

參數名不能有空格,標點符號等。

  • Parameter Passing:參數傳遞

    azkaban以job執行過程中,傳遞進來的臨時參數,運行時參數,項目中配置文件的參數,job定義中參數等 都保存在 ${JOB_PROP_FILE}文件中,保存格式為key=value。執行job的中shell命令時,可以作為參數傳遞。
    JOB_PROP_FILE 是一個環境變量參數。

  • Parameter Output:參數輸出

    一個任務運行結束,可以將一些參數寫入到${JOB_OUTPUT_PROP_FILE}文件 中,azkaban會將這些參數傳遞到下游依賴的的job的參數文件${JOB_PROP_FILE}文件中,供下游job引用。
    寫如到${JOB_OUTPUT_PROP_FILE}文件中參數需要是json格式的,否則會報json解析錯。
    JOB_OUTPUT_PROP_FILE也是一個環境變量參數。

2. shell類型的job的參數傳遞

azkaban中的shell 作業,如何接收從webUI傳遞的參數?

step1: UI頁面輸入參數定義:
ui_test=test111111111

step2:在job文件myjob.job指定:

##作業定義文件UI輸入參數接收:
job_param4=${ui_test}

##作業定義文件腳本命令行引用UI輸入參數:
sh test_azkaban_job.sh "${job_param4}"

step3:shell test_azkaban_job.sh 的內容
vi test_azkaban_job.sh

echo "inputparamter:$1"  #接收job文件中傳遞的參數。

問題:在頁面手動執行前面的job時,如果UI參數ui_test在job執行沒有輸入,會執行失敗。異常信息如下:

hello ERROR - Failed to build job executor for job helloCould not find variable substitution for variable(s) [param4->ui_test ]

在定時調度任務指定時,需要指定工作流參數flowParameters :ui_test,避免該錯誤。

運行時參數:在UI頁面重新輸入運行時參數時,可以覆蓋系統默認生成的參數值。

運行時參數,和UI輸入的參數,都可以認為是全局參數,在整個工作流的作業
配置中,都可以通過 ${參數名} 的方式引用使用。

在shell 中直接引用 公共參數,運行時系統參數,UI輸入參數,是無效的。
在shell中只能直接使用環境變量;公共參數,運行時系統參數,UI輸入參數能只通過shell的腳本參數的方式傳遞
進來。

job文件中定義的環境變量參數,可以在shell腳本中直接引用,但只對當前job有效。


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()