DStream是Spark Streaming的基礎(chǔ)抽象,代表持續(xù)的數(shù)據(jù)流,它由一系列連續(xù)的RDD組成,一個(gè)批次間隔接收的數(shù)據(jù)只會(huì)存放在一個(gè)block中,因此每個(gè)批次間隔都只會(huì)產(chǎn)生一個(gè)RDD。
DStream與RDD同樣是不可變的,每個(gè)算子都會(huì)創(chuàng)建一個(gè)新的DStream,因此一個(gè)批次可能會(huì)有多個(gè)DStream。
對(duì)同一個(gè)DStream連續(xù)window沒有意義,因?yàn)閒oreach只會(huì)按照最后一個(gè)window生成的DStream來對(duì)待RDD。