Hive數據倉庫 - universe42

Hive 是一個基于Hadoop分布式文件系統(HDFS)之上的數據倉庫架構,同時依賴于MapReduce。適用于大數據集的批處理,而不適用于低延遲快速查詢。

Hive將用戶的HiveQL語句轉換為MapReduce作業提交到Hadoop集群上,監控執行過程,最后返回結果給用戶。由于Hive的元數據(Hive倉庫本身的數據信息)需要不斷更新、修改、讀取,而由于Hadoop存在較高的延時以及作業調度的開銷,因此將Hive元數據存在關系型數據庫Mysql、derby中。

文章列表