Apache samza是分布式流處理框架,本文Apache Samza框架進(jìn)行介紹,通過此文檔的閱讀,您將會(huì)對(duì)Samza初步的認(rèn)識(shí),并且能夠很好地使用Apache samza框架!
Samza是近日由LinkedIn開源的一項(xiàng)技術(shù),它是一個(gè)分布式流處理框架,它是基于Kafka消息隊(duì)列來實(shí)現(xiàn)類實(shí)時(shí)的流式數(shù)據(jù)處理的,非常像Twitter的流處理系統(tǒng)Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系統(tǒng),并使用資源管理器Apache Hadoop YARN實(shí)現(xiàn)容錯(cuò)處理、處理器隔離、安全性和資源管理。
Samza作為一個(gè)分布式的消息隊(duì)列系統(tǒng),kafka已經(jīng)實(shí)現(xiàn)了流式處理框架底層的許多核心基礎(chǔ)架構(gòu),把消息串聯(lián)流動(dòng)起來就是Streaming了。但是要構(gòu)建一個(gè)可用的流式數(shù)據(jù)處理框架,還是有許多事情要做。例如生產(chǎn)者和消費(fèi)者進(jìn)程的管理,作業(yè)調(diào)度和容錯(cuò)處理,輔助工具和監(jiān)控管理手段,更友好方便的用戶接口等等,本質(zhì)上說,Samza是在消息隊(duì)列系統(tǒng)上的更高層的抽象,是一種應(yīng)用流式處理框架在消息隊(duì)列系統(tǒng)上的一種應(yīng)用模式的實(shí)現(xiàn)。
官網(wǎng):http://samza.apache.org/