91aaa在线国内观看,亚洲AV午夜福利精品一区二区,久久偷拍人视频,久久播这里有免费视播

<strong id="fvuar"></strong>

  • <sub id="fvuar"><dl id="fvuar"><em id="fvuar"></em></dl></sub>

    1. 千鋒教育-做有情懷、有良心、有品質的職業(yè)教育機構

      手機站
      千鋒教育

      千鋒學習站 | 隨時隨地免費學

      千鋒教育

      掃一掃進入千鋒手機站

      領取全套視頻
      千鋒教育

      關注千鋒學習站小程序
      隨時隨地免費學習課程

      當前位置:首頁  >  應聘面試  >  大數(shù)據(jù)面試題  > 大數(shù)據(jù)的核心技術有哪些?

      大數(shù)據(jù)的核心技術有哪些?

      來源:千鋒教育
      發(fā)布人:syq
      時間: 2022-07-14 17:16:00 1657790160

        大數(shù)據(jù)的核心技術有哪些?大數(shù)據(jù)的核心層:數(shù)據(jù)采集層、數(shù)據(jù)存儲分析層、數(shù)據(jù)共享層、數(shù)據(jù)應用層,叫法不同,作用基本相同。

      大數(shù)據(jù)的核心技術有哪些

        大數(shù)據(jù)的核心技術有哪些?

        1、數(shù)據(jù)收集

        數(shù)據(jù)收集的任務是收集各種數(shù)據(jù)源的數(shù)據(jù)并將其存儲到數(shù)據(jù)存儲中,在此期間可以進行一些簡單的清洗。有多種類型的數(shù)據(jù)源:

        網(wǎng)站日志:作為互聯(lián)網(wǎng)行業(yè),網(wǎng)站日志占比最大。網(wǎng)站日志存儲在多個網(wǎng)站日志服務器上。一般在每臺網(wǎng)站日志服務器上部署flume agent,實時采集網(wǎng)站日志并存儲在HDFS上;

        業(yè)務數(shù)據(jù)庫:還有各種類型的業(yè)務數(shù)據(jù)庫,包括Mysql、Oracle、SqlServer等,這個時候我們迫切需要一個可以將各種數(shù)據(jù)庫的數(shù)據(jù)同步到HDFS的工具。Sqoop 是一種,但是 Sqoop 太重了,無論數(shù)據(jù)大小,都需要啟動 MapReduce 執(zhí)行,Hadoop 集群中的每臺機器都需要能夠訪問業(yè)務數(shù)據(jù)庫;對于這種場景,淘寶開源的DataX是一個很好的解決方案。如果有資源,可以基于DataX進行二次開發(fā),可以很好的解決。當然,F(xiàn)lume 也可以通過配置和開發(fā),將數(shù)據(jù)庫中的數(shù)據(jù)實時同步到 HDFS。

        數(shù)據(jù)源來自Ftp/Http:可能部分合作伙伴提供的數(shù)據(jù)需要定期通過Ftp/Http等獲取,DataX也可以滿足這個需求;

        其他數(shù)據(jù)源:如一些手動錄入的數(shù)據(jù),只需要提供一個接口或小程序即可完成。

        2、數(shù)據(jù)存儲與分析

        毫無疑問,HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫/數(shù)據(jù)平臺最完美的數(shù)據(jù)存儲解決方案。

        離線數(shù)據(jù)分析計算,也就是對實時性要求不高的部分,在我看來還是首選Hive,數(shù)據(jù)類型豐富,內(nèi)置功能;ORC文件存儲格式,壓縮比非常高;非常方便的 SQL 支持使得 Hive 基于結構化數(shù)據(jù)的統(tǒng)計分析遠比 MapReduce 高效。對于單個 SQL 語句可以滿足的需求,MR 的開發(fā)可能需要數(shù)百行代碼。

        當然,使用 Hadoop 框架自然也提供了 MapReduce 接口。如果你真的很樂意開發(fā)Java,或者對SQL不熟悉,也可以使用MapReduce進行分析計算。Spark在過去兩年非常流行。經(jīng)過實踐,它的性能確實比 MapReduce 好很多,而且結合 Hive 和 Yarn 也越來越好。因此,需要支持使用 Spark 和 SparkSQL 進行分析計算。因為 Hadoop Yarn 已經(jīng)存在,所以不用單獨部署 Spark 集群,使用 Spark 其實是非常容易的。

        3、數(shù)據(jù)共享

        這里的數(shù)據(jù)共享,其實是指之前的數(shù)據(jù)分析計算結果存儲的地方,其實就是關系型數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫;之前使用Hive、MR、Spark、SparkSQL分析計算的結果還在HDFS上。但是大部分業(yè)務和應用無法直接從HDFS獲取數(shù)據(jù),所以需要一個數(shù)據(jù)共享的地方,讓每個業(yè)務和產(chǎn)品都能輕松獲取數(shù)據(jù);它與 HDFS 的數(shù)據(jù)收集層正好相反,需要從 HDFS 傳輸數(shù)據(jù)。與其他目標數(shù)據(jù)源同步的工具,同樣DataX也能滿足。

        另外,一些實時計算結果數(shù)據(jù)可以直接寫入實時計算模塊的數(shù)據(jù)共享中。

        4、數(shù)據(jù)應用

        業(yè)務產(chǎn)品和業(yè)務產(chǎn)品使用的數(shù)據(jù)已經(jīng)存在于數(shù)據(jù)共享層,可以直接從數(shù)據(jù)共享層訪問;報表(FineReport,業(yè)務報表)與業(yè)務產(chǎn)品相同,報表中使用的數(shù)據(jù)一般已經(jīng)統(tǒng)計和匯總。存儲在數(shù)據(jù)共享層;ad hoc 查詢 ad hoc 查詢的用戶很多,可能是數(shù)據(jù)開發(fā)人員、網(wǎng)站和產(chǎn)品運營商、數(shù)據(jù)分析師,甚至是部門負責人,他們都有臨時查詢數(shù)據(jù)的需求;這種即席查詢通常情況下,現(xiàn)有報表和數(shù)據(jù)共享層中的數(shù)據(jù)不能滿足其需求,需要直接從數(shù)據(jù)存儲層查詢。即席查詢通常通過 SQL 完成。最大的困難是響應速度。使用 Hive 有點慢。可以使用 SparkSQL,它的響應速度比 Hive 快得多,并且與 Hive 兼容。當然,你也可以使用 Impala,如果你不關心平臺中多一個框架。

        OLAP 目前很多OLAP工具都不能很好的支持直接從HDFS獲取數(shù)據(jù)。他們通過將需要的數(shù)據(jù)同步到關系數(shù)據(jù)庫中來做OLAP,但是如果數(shù)據(jù)量很大,關系數(shù)據(jù)庫顯然不能;這時候需要做相應的開發(fā),從HDFS或者HBase獲取數(shù)據(jù),完成OLAP功能;例如,根據(jù)用戶在界面上選擇的不確定維度和指標,通過開發(fā)界面,從HBase中獲取數(shù)據(jù)進行展示。

        其他數(shù)據(jù)接口 有通用接口和定制接口。比如一個從Redis獲取用戶屬性的接口是通用的,所有的業(yè)務都可以調(diào)用這個接口來獲取用戶屬性。

        5、實時計算

        企業(yè)現(xiàn)在對數(shù)據(jù)倉庫的實時性要求越來越高,比如:實時了解一個網(wǎng)站的整體流量;實時獲取廣告的曝光和點擊;在海量數(shù)據(jù)下,依靠傳統(tǒng)的數(shù)據(jù)庫和傳統(tǒng)的實現(xiàn)方式,基本上是不可能的。需要一個分布式、高吞吐量、低延遲、高可靠的實時計算框架;Storm在這方面比較成熟,但是我選擇Spark Streaming的原因很簡單,就是不想在平臺上引入另外一個框架,另外Spark Streaming的延遲比Storm高一點,對于我們來說可以忽略需要。

        我們目前使用Spark Streaming來實現(xiàn)網(wǎng)站流量的實時統(tǒng)計和廣告效果的實時統(tǒng)計。方法也很簡單。Flume 在前端日志服務器上收集網(wǎng)站日志和廣告日志,并實時發(fā)送到 Spark Streaming。Spark Streaming 完成統(tǒng)計,將數(shù)據(jù)存儲在 Redis 中,通過訪問 Redis 實時獲取服務。

        6、任務調(diào)度與監(jiān)控

        在數(shù)據(jù)倉庫/數(shù)據(jù)平臺中,有很多種程序和任務,例如:數(shù)據(jù)采集任務、數(shù)據(jù)同步任務、數(shù)據(jù)分析任務等。這些任務除了定時調(diào)度外,還有非常復雜的任務依賴關系。例如,數(shù)據(jù)分析任務只有在相應的數(shù)據(jù)采集任務完成后才能啟動;數(shù)據(jù)分析任務完成后才能啟動數(shù)據(jù)同步任務;

        這就需要一個非常完善的任務調(diào)度和監(jiān)控系統(tǒng)。作為數(shù)據(jù)倉庫/數(shù)據(jù)平臺的中心,負責調(diào)度和監(jiān)控所有任務的分配和運行。更多關于大數(shù)據(jù)培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經(jīng)驗,采用全程面授高品質、高體驗培養(yǎng)模式,擁有國內(nèi)一體化教學管理及學員服務,助力更多學員實現(xiàn)高薪夢想。

      tags:
      聲明:本站稿件版權均屬千鋒教育所有,未經(jīng)許可不得擅自轉載。
      10年以上業(yè)內(nèi)強師集結,手把手帶你蛻變精英
      請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
      免費領取
      今日已有369人領取成功
      劉同學 138****2860 剛剛成功領取
      王同學 131****2015 剛剛成功領取
      張同學 133****4652 剛剛成功領取
      李同學 135****8607 剛剛成功領取
      楊同學 132****5667 剛剛成功領取
      岳同學 134****6652 剛剛成功領取
      梁同學 157****2950 剛剛成功領取
      劉同學 189****1015 剛剛成功領取
      張同學 155****4678 剛剛成功領取
      鄒同學 139****2907 剛剛成功領取
      董同學 138****2867 剛剛成功領取
      周同學 136****3602 剛剛成功領取
      相關推薦HOT
      快速通道