91aaa在线国内观看,亚洲AV午夜福利精品一区二区,久久偷拍人视频,久久播这里有免费视播

<strong id="fvuar"></strong>

  • <sub id="fvuar"><dl id="fvuar"><em id="fvuar"></em></dl></sub>

    1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

      手機站
      千鋒教育

      千鋒學習站 | 隨時隨地免費學

      千鋒教育

      掃一掃進入千鋒手機站

      領取全套視頻
      千鋒教育

      關(guān)注千鋒學習站小程序
      隨時隨地免費學習課程

      當前位置:首頁  >  技術(shù)干貨  > Python爬蟲看膩了?JS爬蟲來拯救你!

      Python爬蟲看膩了?JS爬蟲來拯救你!

      來源:千鋒教育
      發(fā)布人:小千
      時間: 2021-01-21 09:06:00 1611191160

            一提到爬蟲,大多數(shù)同學都想到的是Python,今天小千就給大家上一下不同的菜,利用js制作一個爬蟲,Python用膩了來試試js吧。

            一、引言

            最近娛樂圈比較的火的算是鄭爽事件了,作為一名程序猿如何能或者最新的娛樂熱點新聞呢? 今天咱們就用js做一個網(wǎng)絡爬蟲,來爬取一個網(wǎng)站的新聞數(shù)據(jù)。

            二、什么是爬蟲?

            網(wǎng)絡爬蟲,又稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,意思是我們通過程序去搜集網(wǎng)絡上某些網(wǎng)站的數(shù)據(jù)。典型的通過爬蟲獲取數(shù)據(jù)的網(wǎng)站,比如百度、谷歌等搜索引擎。還有一些新聞聚合類網(wǎng)站,比如今日頭條等網(wǎng)站。之前淘寶的一淘,返利網(wǎng)等網(wǎng)站都是利用了爬蟲技術(shù)去獲取別人網(wǎng)站的一些信息。 爬蟲也不能亂用,無限制的去爬取一個網(wǎng)站的信息,那樣會導致人家公司服務器壓力比較大。之前有句爬蟲界比較流行的話:爬蟲玩的好,監(jiān)獄進的早;數(shù)據(jù)玩的溜,牢飯吃個夠!做技術(shù)的要有自己的底線,之前有程序員用爬蟲為公司做了一些工作,結(jié)果公司被訴訟,程序猿被帶走!

            三、開始之前

            為了防止出一些意外,首先我們可以訪問你要爬取的目標網(wǎng)站的robots協(xié)議。 robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡爬蟲:此網(wǎng)站中的哪些內(nèi)容是不應被爬蟲獲取的,哪些是可以被爬蟲獲取的。參考robots.txt去爬取數(shù)據(jù),再設置一下間歇時間,不會有人在意的。

      1

            紅色部分是關(guān)鍵,所有的網(wǎng)頁都不能被爬取??!有句話不知當講不當講!

      2

            冷靜下來,文章還沒寫就要結(jié)束了嗎?我的kpi咋辦?。。?/p>

            看看我們的今天要爬取的網(wǎng)頁地址,我們今天要爬取的網(wǎng)頁后綴名不是html?。?!

            不知道是不是網(wǎng)站的技術(shù)人員忽略了這樣的地址,哈哈哈。

            四、正式開始

            我們使用nodejs做爬蟲,要使用到兩個npm包,cheerio 和 axios

            首先按照nodej,然后安裝axios和cheerio 。

            五、安裝axios

            axios是一個可以發(fā)起請求從而獲取網(wǎng)頁內(nèi)的包。

            鍵盤上按win+r,輸入CMD,在里面輸入   npm i aixos

            就可以安裝axios

            六、安裝cheerio

            安裝cheerio cheerio 是一的用法跟jQuery的用法差不多。 就是先將頁面的數(shù)據(jù)load進來形成一個特定的數(shù)據(jù)格式,然后通過類似jq的語法,對數(shù)據(jù)進行解析處理。 終端中輸入

            npm i cheerio

      3

            七、爬取數(shù)據(jù)

            新建sp.js文件,寫入如下代碼

      4

            執(zhí)行node sp.js 命令

            網(wǎng)頁的數(shù)據(jù)已經(jīng)獲取到了,然后我們就可以使用jquery的語法獲取頁面中的數(shù)據(jù)了。 下面我們分析一下頁面的結(jié)構(gòu)

      6

            可以看到頁面中所有的新聞標題都在a標簽中,類名是truetit。然后我們就可以使用jq的選擇器獲取頁面中所有類名為truetit的元素。

      7

            終端中結(jié)果

      8

            這樣每次執(zhí)行就可以獲取最新的娛樂新聞,不需要打開網(wǎng)頁就可以獲取到,當然我們只是獲取了第一頁的數(shù)據(jù),你也可以獲取第二頁、第三頁等其他頁面的數(shù)據(jù)。 我們現(xiàn)在相當于只獲取了一個網(wǎng)站的娛樂數(shù)據(jù),如果你再分析一些其他的網(wǎng)站,獲取一些其他的網(wǎng)站的數(shù)據(jù),然后把數(shù)據(jù)都存儲起來,自己就可以做一個只顯示娛樂新聞的網(wǎng)站了!

            學習web前端,可以參考千鋒web前端培訓班提供的web前端學習路線,該學習路線對從零基礎小白到web前端初級開發(fā)工程師,web前端高級開發(fā)工程師,后面的web前端大神級開發(fā)工程師都有一個明確清晰的指導,根據(jù)千鋒web前端培訓機構(gòu)提供的web前端學習路線圖可以讓你對學習web前端開發(fā)需要掌握的知識有個清晰的了解,并快速入門web前端開發(fā)。想要獲取前端完整學習路線和免費的學習資料可以添加我們的web前端技術(shù)分享交流qq群:857920838  加群找群管理領取即可,等你來哦~~

      tags:
      聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
      10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
      請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
      免費領取
      今日已有369人領取成功
      劉同學 138****2860 剛剛成功領取
      王同學 131****2015 剛剛成功領取
      張同學 133****4652 剛剛成功領取
      李同學 135****8607 剛剛成功領取
      楊同學 132****5667 剛剛成功領取
      岳同學 134****6652 剛剛成功領取
      梁同學 157****2950 剛剛成功領取
      劉同學 189****1015 剛剛成功領取
      張同學 155****4678 剛剛成功領取
      鄒同學 139****2907 剛剛成功領取
      董同學 138****2867 剛剛成功領取
      周同學 136****3602 剛剛成功領取
      相關(guān)推薦HOT
      為什么sql語句不支持關(guān)系代數(shù)中的除法?

      為什么SQL語句不支持關(guān)系代數(shù)中的除法1. SQL和關(guān)系代數(shù)的關(guān)系:SQL是一種基于關(guān)系代數(shù)的查詢語言,它的設計初衷是為了能夠以一種更接近自然語言...詳情>>

      2023-10-14 04:07:35
      sql 怎么根據(jù)父id查詢下三級子集?

      一、概述處理樹形數(shù)據(jù)時,我們常常需要根據(jù)父ID查詢其下的子集。本文將引導您如何使用SQL進行這一操作,尤其是查詢下三級子集。二、查詢方法詳...詳情>>

      2023-10-14 03:59:07
      什么是分治算法,和遞歸有什么關(guān)系?

      分治算法是什么分治算法是一種算法設計思想,其主要思想是將一個復雜的問題分解為兩個或更多相同或相似的子問題,直到子問題簡單到可以直接解決...詳情>>

      2023-10-14 03:22:51
      為什么微服務一定要上Docker?

      為什么微服務一定要上Docker微服務作為一種軟件架構(gòu)模式,需要考慮的因素包括服務的獨立性、可擴展性、可維護性和可移植性等。這其中,Docker的...詳情>>

      2023-10-14 03:15:33
      C++的traits技術(shù)到底是什么?

      在C++編程中,traits是一種編程技巧,其主要目的是在編譯時提供關(guān)于類型的額外信息。它可以將類型的一些特性(如其關(guān)聯(lián)類型、屬性、函數(shù)等)抽...詳情>>

      2023-10-14 03:00:03