Spark SQL

2018-02-23 16:25 更新

Spark SQL

Spark SQL允許Spark執(zhí)行用SQL, HiveQL或者Scala表示的關(guān)系查詢。這個模塊的核心是一個新類型的RDD-SchemaRDD。SchemaRDDs由對象組成,行對象擁有一個模式(scheme)來描述行中每一列的數(shù)據(jù)類型。SchemaRDD與關(guān)系型數(shù)據(jù)庫中的表很相似??梢酝ㄟ^存在的RDD、一個Parquet文件、一個JSON數(shù)據(jù)庫或者對存儲在Apache Hive中的數(shù)據(jù)執(zhí)行HiveSQL查詢中創(chuàng)建。

本章的所有例子都利用了Spark分布式系統(tǒng)中的樣本數(shù)據(jù),可以在spark-shell中運行它們。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號