Spark RDDs

2018-02-23 16:25 更新

彈性分布式數(shù)據(jù)集 (RDDs)

Spark 核心的概念是 Resilient Distributed Dataset (RDD):一個(gè)可并行操作的有容錯(cuò)機(jī)制的數(shù)據(jù)集合。有 2 種方式創(chuàng)建 RDDs:第一種是在你的驅(qū)動(dòng)程序中并行化一個(gè)已經(jīng)存在的集合;另外一種是引用一個(gè)外部存儲系統(tǒng)的數(shù)據(jù)集,例如共享的文件系統(tǒng),HDFS,HBase或其他 Hadoop 數(shù)據(jù)格式的數(shù)據(jù)源。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號