Spark Streaming離散流

2018-11-26 16:29 更新

離散流(DStreams)

離散流或者DStreams是Spark Streaming提供的基本的抽象,它代表一個連續(xù)的數(shù)據(jù)流。它要么是從源中獲取的輸入流,要么是輸入流通過轉(zhuǎn)換算子生成的處理后的數(shù)據(jù)流。在內(nèi)部,DStreams由一系列連續(xù)的RDD組成。DStreams中的每個RDD都包含確定時間間隔內(nèi)的數(shù)據(jù),如下圖所示:

DStreams

任何對DStreams的操作都轉(zhuǎn)換成了對DStreams隱含的RDD的操作。在前面的例子中,flatMap操作應(yīng)用于lines這個DStreams的每個RDD,生成words這個DStreams的RDD。過程如下圖所示:

DStreams

通過Spark引擎計算這些隱含RDD的轉(zhuǎn)換算子。DStreams操作隱藏了大部分的細節(jié),并且為了更便捷,為開發(fā)者提供了更高層的API。下面幾節(jié)將具體討論這些操作的細節(jié)。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號