確定是離線數(shù)倉嗎(如果是離線數(shù)倉,就算離線數(shù)倉數(shù)據從kafka接入,那這對kafka中數(shù)據順序的關系我就不太明白面試人想要啥)?
如果是離線數(shù)倉的數(shù)據從Kafka接入,接入到離線數(shù)據倉庫的數(shù)據需要保障順序嗎?這個保障不必要。我總覺得這個問題的核心是讓你保證Kakfa中數(shù)據的順序?我們就針對這個問題說明
1、kafka本身就是保障分區(qū)內的數(shù)據有序,但是主題有多個分區(qū),這個主題的多有數(shù)據不敢保證有順序,所以我們需要為進入topic的數(shù)據做好key的分配(相同key只能進同一分區(qū)),保障相同的key的數(shù)據是有順序,這樣后續(xù)的實時數(shù)倉才方便計算,至于離線數(shù)倉要保障全局數(shù)據的順序很簡單,從新排序一下即可。
2、如果能設置kafka的上游數(shù)據僅為一個生產者,設置kafka只有一個分區(qū),設置消費者只有一個,那這樣也能保障其kakfa數(shù)據有序的,但是這種幾乎就是極端場景,生產中很少見,除非數(shù)據很少可以嘗試。
更多關于大數(shù)據培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經驗,采用全程面授高品質、高體驗培養(yǎng)模式,擁有國內一體化教學管理及學員服務,助力更多學員實現(xiàn)高薪夢想。