文章出處

基本操作

Spark SQL中的DataFrame類似于一張關系型數據表。在關系型數據庫中對單表或進行的查詢操作，在DataFrame中都可以通過調用其API接口來實現。可以參考，Scala提供的DataFrame API。

　　本文中的代碼基于Spark-1.6.2的文檔實現。

一、DataFrame對象的生成

　　Spark-SQL可以以其他RDD對象、parquet文件、json文件、hive表，以及通過JDBC連接到其他關系型數據庫作為數據源來生成DataFrame對象。本文將以MySQL數據庫為數據源，生成DataFrame對象后進行相關的DataFame之上的操作。
　　文中生成DataFrame的代碼如下：

object DataFrameOperations {
  def main (args: Array[String ]) {
    val sparkConf = new SparkConf().setAppName( "Spark SQL DataFrame Operations").setMaster( "local[2]" )
    val sparkContext = new SparkContext(sparkConf)

    val sqlContext = new SQLContext(sparkContext)
    val url = "jdbc:mysql://m000:3306/test"

    val jdbcDF = sqlContext.read.format( "jdbc" ).options(
      Map( "url" -> url,
        "user" -> "root",
        "password" -> "root",
        "dbtable" -> "spark_sql_test" )).load()

    val joinDF1 = sqlContext.read.format( "jdbc" ).options(
      Map("url" -> url ,
        "user" -> "root",
        "password" -> "root",
        "dbtable" -> "spark_sql_join1" )).load()

    val joinDF2 = sqlContext.read.format( "jdbc" ).options(
      Map ( "url" -> url ,
        "user" -> "root",
        "password" -> "root",
        "dbtable" -> "spark_sql_join2" )).load()

    ... ...
  }
}

　　后續代碼都在上面... ...處。

二、DataFrame對象上Action操作

1、`show`：展示數據

　　以表格的形式在輸出中展示jdbcDF中的數據，類似于select * from spark_sql_test的功能。
　　show方法有四種調用方式，分別為，
（1）show
　　只顯示前20條記錄。
　　示例：

jdbcDF.show

　　結果：
　　這里寫圖片描述

（2）show(numRows: Int)
　　顯示numRows條
　　示例：

jdbcDF.show(3)

　　結果：
　　這里寫圖片描述

（3）show(truncate: Boolean)
　　是否最多只顯示20個字符，默認為true。
　　示例：

jdbcDF.show(true)
jdbcDF.show(false)

　　結果：
　　這里寫圖片描述

（4）show(numRows: Int, truncate: Boolean)
　　綜合前面的顯示記錄條數，以及對過長字符串的顯示格式。
　　示例：

jdbcDF.show(3, false)

　　結果：
　　這里寫圖片描述

2、`collect`：獲取所有數據到數組

　　不同于前面的show方法，這里的collect方法會將jdbcDF中的所有數據都獲取到，并返回一個Array對象。

jdbcDF.collect()

　　結果如下，結果數組包含了jdbcDF的每一條記錄，每一條記錄由一個GenericRowWithSchema對象來表示，可以存儲字段名及字段值。
　　這里寫圖片描述

3、`collectAsList`：獲取所有數據到List

　　功能和collect類似，只不過將返回結構變成了List對象，使用方法如下

jdbcDF.collectAsList()

　　結果如下，
　　這里寫圖片描述

4、`describe(cols: String*)`：獲取指定字段的統計信息

　　這個方法可以動態的傳入一個或多個String類型的字段名，結果仍然為DataFrame對象，用于統計數值類型字段的統計值，比如count, mean, stddev, min, max等。
　　使用方法如下，其中c1字段為字符類型，c2字段為整型，c4字段為浮點型

jdbcDF .describe("c1" , "c2", "c4" ).show()

　　結果如下，
　　這里寫圖片描述

5、`first, head, take, takeAsList`：獲取若干行記錄

　　這里列出的四個方法比較類似，其中
　　（1）first獲取第一行記錄
　　（2）head獲取第一行記錄，head(n: Int)獲取前n行記錄
　　（3）take(n: Int)獲取前n行數據
　　（4）takeAsList(n: Int)獲取前n行數據，并以List的形式展現
　　以Row或者Array[Row]的形式返回一行或多行數據。first和head功能相同。
　　take和takeAsList方法會將獲得到的數據返回到Driver端，所以，使用這兩個方法時需要注意數據量，以免Driver發生OutOfMemoryError

　　使用和結果略。

二、DataFrame對象上的條件查詢和join等操作

　　以下返回為DataFrame類型的方法，可以連續調用。

1、where條件相關

（1）where(conditionExpr: String)：SQL語言中where關鍵字后的條件
　　傳入篩選條件表達式，可以用and和or。得到DataFrame類型的返回結果，
　　示例：

jdbcDF .where("id = 1 or c1 = 'b'" ).show()

　　結果，
　　這里寫圖片描述

（2）filter：根據字段進行篩選
　　傳入篩選條件表達式，得到DataFrame類型的返回結果。和where使用條件相同
　　示例：

jdbcDF .filter("id = 1 or c1 = 'b'" ).show()

　　結果，
　　這里寫圖片描述

2、查詢指定字段

（1）select：獲取指定字段值
　　根據傳入的String類型字段名，獲取指定字段的值，以DataFrame類型返回
　　示例：

jdbcDF.select( "id" , "c3" ).show( false)

　　結果：
　　這里寫圖片描述

　　還有一個重載的select方法，不是傳入String類型參數，而是傳入Column類型參數。可以實現select id, id+1 from test這種邏輯。

jdbcDF.select(jdbcDF( "id" ), jdbcDF( "id") + 1 ).show( false)

　　結果：
　　這里寫圖片描述

　　能得到Column類型的方法是apply以及col方法，一般用apply方法更簡便。

（2）selectExpr：可以對指定字段進行特殊處理
　　可以直接對指定字段調用UDF函數，或者指定別名等。傳入String類型參數，得到DataFrame對象。
　　示例，查詢id字段，c3字段取別名time，c4字段四舍五入：

jdbcDF .selectExpr("id" , "c3 as time" , "round(c4)" ).show(false)

　　結果，
　　這里寫圖片描述

（3）col：獲取指定字段
　　只能獲取一個字段，返回對象為Column類型。
　　val idCol = jdbcDF.col(“id”)果略。

（4）apply：獲取指定字段
　　只能獲取一個字段，返回對象為Column類型
　　示例：

val idCol1 = jdbcDF.apply("id")
val idCol2 = jdbcDF("id")

　　結果略。

（5）drop：去除指定字段，保留其他字段
　　返回一個新的DataFrame對象，其中不包含去除的字段，一次只能去除一個字段。
　　示例：

jdbcDF.drop("id")
jdbcDF.drop(jdbcDF("id"))

　　結果：
　　這里寫圖片描述

3、limit

　　limit方法獲取指定DataFrame的前n行記錄，得到一個新的DataFrame對象。和take與head不同的是，limit方法不是Action操作。

jdbcDF.limit(3).show( false)

　　結果，
　　這里寫圖片描述

4、order by

（1）orderBy和sort：按指定字段排序，默認為升序
　　示例1，按指定字段排序。加個-表示降序排序。sort和orderBy使用方法相同

jdbcDF.orderBy(- jdbcDF("c4")).show(false)
// 或者
jdbcDF.orderBy(jdbcDF("c4").desc).show(false)

　　結果，
　　這里寫圖片描述

　　示例2，按字段字符串升序排序

jdbcDF.orderBy("c4").show(false)

　　結果，
　　這里寫圖片描述

（2）sortWithinPartitions
　　和上面的sort方法功能類似，區別在于sortWithinPartitions方法返回的是按Partition排好序的DataFrame對象。

5、group by

（1）groupBy：根據字段進行group by操作
　　groupBy方法有兩種調用方式，可以傳入String類型的字段名，也可傳入Column類型的對象。
　　使用方法如下，

jdbcDF .groupBy("c1" )
jdbcDF.groupBy( jdbcDF( "c1"))

（2）cube和rollup：group by的擴展
　　功能類似于SQL中的group by cube/rollup，略。

（3）GroupedData對象
　　該方法得到的是GroupedData類型對象，在GroupedData的API中提供了group by之后的操作，比如，

max(colNames: String*)方法，獲取分組中指定字段或者所有的數字類型字段的最大值，只能作用于數字型字段
min(colNames: String*)方法，獲取分組中指定字段或者所有的數字類型字段的最小值，只能作用于數字型字段
mean(colNames: String*)方法，獲取分組中指定字段或者所有的數字類型字段的平均值，只能作用于數字型字段
sum(colNames: String*)方法，獲取分組中指定字段或者所有的數字類型字段的和值，只能作用于數字型字段
count()方法，獲取分組中的元素個數

　　運行結果示例：
　　count
　　

　　max
　　

　　這里面比較復雜的是以下兩個方法，
agg，該方法和下面介紹的類似，可以用于對指定字段進行聚合操作。

pivot

6、distinct

（1）distinct：返回一個不包含重復記錄的DataFrame
　　返回當前DataFrame中不重復的Row記錄。該方法和接下來的dropDuplicates()方法不傳入指定字段時的結果相同。
　　示例：

jdbcDF.distinct()

　　結果，
　　這里寫圖片描述

（2）dropDuplicates：根據指定字段去重
　　根據指定字段去重。類似于select distinct a, b操作
　　示例：

jdbcDF.dropDuplicates(Seq("c1"))

　　結果：
　　這里寫圖片描述

7、聚合

　　聚合操作調用的是agg方法，該方法有多種調用方式。一般與groupBy方法配合使用。
　　以下示例其中最簡單直觀的一種用法，對id字段求最大值，對c4字段求和。

jdbcDF.agg("id" -> "max", "c4" -> "sum")

　　結果：
　　這里寫圖片描述

8、union

　　unionAll方法：對兩個DataFrame進行組合
　　類似于SQL中的UNION ALL操作。
　　示例：

jdbcDF.unionALL(jdbcDF.limit(1))

　　結果：
　　這里寫圖片描述

9、join

　　重點來了。在SQL語言中用得很多的就是join操作，DataFrame中同樣也提供了join的功能。
　　接下來隆重介紹join方法。在DataFrame中提供了六個重載的join方法。
（1）、笛卡爾積

joinDF1.join(joinDF2)

（2）、using一個字段形式
　　下面這種join類似于a join b using column1的形式，需要兩個DataFrame中有相同的一個列名，

joinDF1.join(joinDF2, "id")

　　joinDF1和joinDF2根據字段id進行join操作，結果如下，using字段只顯示一次。
　　這里寫圖片描述

（3）、using多個字段形式
　　除了上面這種using一個字段的情況外，還可以using多個字段，如下

joinDF1.join(joinDF2, Seq("id", "name")）

（4）、指定join類型
　　兩個DataFrame的join操作有inner, outer, left_outer, right_outer, leftsemi類型。在上面的using多個字段的join情況下，可以寫第三個String類型參數，指定join的類型，如下所示

joinDF1.join(joinDF2, Seq("id", "name"), "inner"）

（5）、使用Column類型來join
　　如果不用using模式，靈活指定join字段的話，可以使用如下形式

joinDF1.join(joinDF2 , joinDF1("id" ) === joinDF2( "t1_id"))

　　結果如下，
　　這里寫圖片描述

（6）、在指定join字段同時指定join類型
　　如下所示

joinDF1.join(joinDF2 , joinDF1("id" ) === joinDF2( "t1_id"), "inner")

10、獲取指定字段統計信息

　　stat方法可以用于計算指定字段或指定字段之間的統計信息，比如方差，協方差等。這個方法返回一個DataFramesStatFunctions類型對象。
　　下面代碼演示根據c4字段，統計該字段值出現頻率在30%以上的內容。在jdbcDF中字段c1的內容為"a, b, a, c, d, b"。其中a和b出現的頻率為2 / 6，大于0.3

jdbcDF.stat.freqItems(Seq ("c1") , 0.3).show()

　　結果如下：
　　這里寫圖片描述

11、獲取兩個DataFrame中共有的記錄

　　intersect方法可以計算出兩個DataFrame中相同的記錄，

jdbcDF.intersect(jdbcDF.limit(1)).show(false)

　　結果如下：
　　這里寫圖片描述

12、獲取一個DataFrame中有另一個DataFrame中沒有的記錄

　　示例：

jdbcDF.except(jdbcDF.limit(1)).show(false)

　　結果如下，
　　這里寫圖片描述

13、操作字段名

（1）withColumnRenamed：重命名DataFrame中的指定字段名
　　如果指定的字段名不存在，不進行任何操作。下面示例中將jdbcDF中的id字段重命名為idx。

jdbcDF.withColumnRenamed( "id" , "idx" )

　　結果如下：
　　這里寫圖片描述

（2）withColumn：往當前DataFrame中新增一列
　　whtiColumn(colName: String , col: Column)方法根據指定colName往DataFrame中新增一列，如果colName已存在，則會覆蓋當前列。
　　以下代碼往jdbcDF中新增一個名為id2的列，

jdbcDF.withColumn("id2", jdbcDF("id")).show( false)

　　結果如下，
　　這里寫圖片描述

14、行轉列

　　有時候需要根據某個字段內容進行分割，然后生成多行，這時可以使用explode方法
　　下面代碼中，根據c3字段中的空格將字段內容進行分割，分割的內容存儲在新的字段c3_中，如下所示

jdbcDF.explode( "c3" , "c3_" ){time: String => time.split( " " )}

　　結果如下，
　　這里寫圖片描述

15、其他操作

　　API中還有na, randomSplit, repartition, alias, as方法，待后續補充。

http://blog.csdn.net/dabokele/article/details/52802150

文章列表

Avast 防毒軟體已檢查此封電子郵件的病毒。
www.avast.com

大師兄

IT工程師數位筆記本

大師兄發表在痞客邦留言(0) 人氣()

E-mail轉寄

IT工程師數位筆記本

If you give someone a program , you will frustrate them for a day; if you teach them how to program, you will frustrate them for a lifetime.IT 這段話的意思是，如果你交給某人一隻程式，你將折磨他一整天;如果你教會某人如何寫程式，你將折磨他一輩子。

BloggerAds

Spark-SQL之DataFrame操作大全 - honey01

一、DataFrame對象的生成

二、DataFrame對象上Action操作

1、`show`：展示數據

2、`collect`：獲取所有數據到數組

3、`collectAsList`：獲取所有數據到List

4、`describe(cols: String*)`：獲取指定字段的統計信息

5、`first, head, take, takeAsList`：獲取若干行記錄

二、DataFrame對象上的條件查詢和join等操作

1、where條件相關

2、查詢指定字段

3、limit

4、order by

5、group by

6、distinct

7、聚合

8、union

9、join

10、獲取指定字段統計信息

11、獲取兩個DataFrame中共有的記錄

12、獲取一個DataFrame中有另一個DataFrame中沒有的記錄

13、操作字段名

14、行轉列

15、其他操作

歷史上的今天

留言列表

參觀人氣

文章搜尋

最新文章

文章精選

誰來我家

熱門文章

文章分類

最新留言

QR Code

POWERED BY

IT工程師數位筆記本

If you give someone a program , you will frustrate them for a day; if you teach them how to program, you will frustrate them for a lifetime.IT 這段話的意思是，如果你交給某人一隻程式，你將折磨他一整天;如果你教會某人如何寫程式，你將折磨他一輩子。

BloggerAds

Spark-SQL之DataFrame操作大全 - honey01

一、DataFrame對象的生成

二、DataFrame對象上Action操作

1、show：展示數據

2、collect：獲取所有數據到數組

3、collectAsList：獲取所有數據到List

4、describe(cols: String*)：獲取指定字段的統計信息

5、first, head, take, takeAsList：獲取若干行記錄

二、DataFrame對象上的條件查詢和join等操作

1、where條件相關

2、查詢指定字段

3、limit

4、order by

5、group by

6、distinct

7、聚合

8、union

9、join

10、獲取指定字段統計信息

11、獲取兩個DataFrame中共有的記錄

12、獲取一個DataFrame中有另一個DataFrame中沒有的記錄

13、操作字段名

14、行轉列

15、其他操作

歷史上的今天

留言列表

參觀人氣

文章搜尋

最新文章

文章精選

誰來我家

熱門文章

文章分類

最新留言

QR Code

POWERED BY

1、`show`：展示數據

2、`collect`：獲取所有數據到數組

3、`collectAsList`：獲取所有數據到List

4、`describe(cols: String*)`：獲取指定字段的統計信息

5、`first, head, take, takeAsList`：獲取若干行記錄