初始化 Spark

2018-02-24 15:57 更新

初始化 Spark

Spark 編程的第一步是需要?jiǎng)?chuàng)建一個(gè) SparkContext 對(duì)象,用來告訴 Spark 如何訪問集群。在創(chuàng)建 SparkContext 之前,你需要構(gòu)建一個(gè) SparkConf 對(duì)象, SparkConf 對(duì)象包含了一些你應(yīng)用程序的信息。

val conf = new SparkConf().setAppName(appName).setMaster(master)
new SparkContext(conf)

appName 參數(shù)是你程序的名字,它會(huì)顯示在 cluster UI 上。masterSpark, Mesos 或 YARN 集群的 URL,或運(yùn)行在本地模式時(shí),使用專用字符串 “l(fā)ocal”。在實(shí)踐中,當(dāng)應(yīng)用程序運(yùn)行在一個(gè)集群上時(shí),你并不想要把 master 硬編碼到你的程序中,你可以用 spark-submit 啟動(dòng)你的應(yīng)用程序的時(shí)候傳遞它。然而,你可以在本地測(cè)試和單元測(cè)試中使用 “l(fā)ocal” 運(yùn)行 Spark 進(jìn)程。

使用 Shell

在 Spark shell 中,有一個(gè)專有的 SparkContext 已經(jīng)為你創(chuàng)建好。在變量中叫做 sc。你自己創(chuàng)建的 SparkContext 將無法工作。可以用 --master 參數(shù)來設(shè)置 SparkContext 要連接的集群,用 --jars 來設(shè)置需要添加到 classpath 中的 JAR 包,如果有多個(gè) JAR 包使用逗號(hào)分割符連接它們。例如:在一個(gè)擁有 4 核的環(huán)境上運(yùn)行 bin/spark-shell,使用:

$ ./bin/spark-shell --master local[4]

或在 classpath 中添加 code.jar,使用:

$ ./bin/spark-shell --master local[4] --jars code.jar

執(zhí)行 spark-shell --help 獲取完整的選項(xiàng)列表。在這之后,調(diào)用 spark-shell 會(huì)比 spark-submit 腳本更為普遍。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)