91aaa在线国内观看,亚洲AV午夜福利精品一区二区,久久偷拍人视频,久久播这里有免费视播

<strong id="fvuar"></strong>

<sub id="fvuar"><dl id="fvuar"><em id="fvuar"></em></dl></sub>

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機站

領(lǐng)取全套視頻

千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓(xùn)機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網(wǎng)

云計算

Python

軟件測試

網(wǎng)絡(luò)安全

大數(shù)據(jù)

Unity

UI/UE設(shè)計

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產(chǎn)品經(jīng)理

商業(yè)插畫

PMP認(rèn)證

紅帽RHCE

軟考認(rèn)證

華為認(rèn)證

出國留學(xué)

安全認(rèn)證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數(shù)據(jù)視頻教程物聯(lián)網(wǎng)視頻教程 Unity視頻教程網(wǎng)絡(luò)安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團(tuán)隊項目大賽
校企服務(wù)
企業(yè)內(nèi)訓(xùn) 高校合作學(xué)科共建
就業(yè)服務(wù)
就業(yè)服務(wù) 雙選會上門招聘人才定制促就業(yè)行動
認(rèn)證考試
PMP培訓(xùn) 軟考培訓(xùn) 紅帽RHCE認(rèn)證學(xué)歷提升
千鋒問問行業(yè)資訊技術(shù)干貨熱點話題
零基礎(chǔ)學(xué)IT IT培訓(xùn)機構(gòu) IT面試題 IT就業(yè)前景
關(guān)于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯(lián)系我們

當(dāng)前位置：首頁 > 技術(shù)干貨 > Python爬蟲之selenium+極驗滑塊破解（B站案例）

Python爬蟲之selenium+極驗滑塊破解（B站案例）

來源：千鋒教育

發(fā)布人：qyf

時間： 2022-09-19 17:34:25 1663580065

　　極驗給大家簡單介紹一下：https://www.geetest.com/，在這里給大家提供了智能組合、滑塊驗證、點選驗證的體驗。

　　滑塊驗證就是其中一部分，而像B站、斗魚、簡書、小米、汽車之家等都是他的客戶。如果大家感興趣也可以去其他網(wǎng)站試試，再次強調(diào)B站我還是很喜歡的

　　滑塊驗證碼簡述

　　有爬蟲，自然就有反爬蟲，就像病毒和殺毒軟件一樣，有攻就有防，兩者彼此推進(jìn)發(fā)展。而目前最流行的反爬技術(shù)驗證碼，為了防止爬蟲自動注冊，批量生成垃圾賬號，幾乎所有網(wǎng)站的注冊頁面都會用到驗證碼技術(shù)。其實驗證碼的英文為 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)，翻譯成中文就是全自動區(qū)分計算機和人類的公開圖靈測試，它是一種可以區(qū)分用戶是計算機還是人的測試，只要能通過 CAPTCHA 測試，該用戶就可以被認(rèn)為是人類。由此也可知道破解滑塊驗證碼的關(guān)鍵即是讓計算機更好的模擬人的行為，這也是破解的難點所在。

　　配置環(huán)境

　　環(huán)境要求：

　　安裝Python3

　　pip install selenium pillow

　　selenium 安裝完成后，下載所選瀏覽器的 webdriver，這個前面一篇文章已經(jīng)介紹過，不再重復(fù)介紹(注意下載的ChromeDriver版本需與Chrome瀏覽器版本對應(yīng))

　　破解步驟

　　思路分析：

　　利用selenium進(jìn)入滑塊驗證碼頁面，截取所需頁面圖片。

　　通過圖片像素對比分析獲取缺口位置與滑塊移動距離。

　　機器模擬人工滑動軌跡。

　　難點分析：

Picture(1)

　　這類驗證碼可以使用 selenium 操作瀏覽器拖拽滑塊來進(jìn)行破解，難點兩個，一個如何確定拖拽到的位置，另一個是避開人機識別(反爬蟲)。

　　首先我們先看看，確定滑塊驗證碼需要拖拽的位移距離

　　有三種方式

　　• 人工智能機器學(xué)習(xí)，確定滑塊位置

　　• 通過完整圖片與缺失滑塊的圖片進(jìn)行像素對比，確定滑塊位置

　　• 邊緣檢測算法，確定位置

　　各有優(yōu)缺點。人工智能機器學(xué)習(xí)，確定滑塊位置，需要進(jìn)行訓(xùn)練比較麻煩，所以我們主要看后面兩種。

　　對比完整圖片與缺失滑塊的圖片

　　B站的滑塊驗證模塊，一共有三張圖片：完整圖、缺失滑塊圖、滑塊圖，都是由畫布canvas繪制出的。類似于：

　　下面三張圖：

Picture(2)

　　HTML截圖如下：

Picture(3)

　　只需要通過selenium獲取畫布元素，執(zhí)行js拿到畫布像素，遍歷完整圖和缺失滑塊圖的像素，一旦獲取到差異(需要允許少許像素誤差)，像素矩陣x軸方向即是滑塊位置。另外由于滑塊圖距離畫布坐標(biāo)原點有距離，還需要減去這部分距離。最后使用 selenium 拖拽即可。

　　部分代碼如下(結(jié)合selenium完成)：

　　# 屏幕截圖

　　def get_screenshot(self):

　　"""

　　獲取網(wǎng)頁截圖

　　:return: 截圖對象

　　"""

　　screenshot = self.browser.get_screenshot_as_png()

　　screenshot = Image.open(BytesIO(screenshot))

　　x, y = screenshot.size

　　screenshot.resize((int(x / 2), int(y / 2)), Image.ANTIALIAS).save('screenshot.png')

　　screenshot = Image.open('screenshot.png')

　　return screenshot

　　# 計算驗證碼圖片所在的位置

　　def get_position(self):

　　"""

　　獲取驗證碼位置

　　:return: 驗證碼位置元組

　　"""

　　top = self.browser.execute_script("return document.documentElement.scrollTop")

　　print(top)

　　img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_bg')))

　　print(img)

　　location = img.location

　　size = img.size

　　top, bottom, left, right = location['y'] - top, location['y'] - top + size['height'], location['x'], \

　　location['x'] + size['width']

　　return (top, bottom, left, right)

　　# 該動作會調(diào)用兩次，分別獲取原圖和帶缺口的圖

　　def get_geetest_image(self, name='captcha.png'):

　　"""

　　獲取驗證碼圖片

　　:return: 圖片對象

　　"""

　　top, bottom, left, right = self.get_position()

　　print('驗證碼位置', left, top, right, bottom)

　　screenshot = self.get_screenshot()

　　captcha = screenshot.crop((left, top, right, bottom))

　　captcha.save(name)

　　return captcha

　　# 獲取缺口的尺寸

　　def get_gap(self, image1, image2):

　　"""

　　獲取缺口偏移量

　　:param image1: 帶缺口圖片

　　:param image2: 不帶缺口圖片

　　:return:

　　"""

　　left = 60

　　print(image1.size[0])

　　print(image1.size[1])

　　for i in range(left, image1.size[0]):

　　for j in range(image1.size[1]):

　　if not self.is_pixel_equal(image1, image2, i, j):

　　left = i

　　return left

　　return left

　　# 比較兩張截圖的不同

　　def is_pixel_equal(self, image1, image2, x, y):

　　"""

　　判斷兩個像素是否相同

　　:param image1: 圖片1

　　:param image2: 圖片2

　　:param x: 位置x

　　:param y: 位置y

　　:return: 像素是否相同

　　"""

　　# 取兩個圖片的像素點

　　pixel1 = image1.load()[x, y]

　　pixel2 = image2.load()[x, y]

　　threshold = 60

　　if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(

　　pixel1[2] - pixel2[2]) < threshold:

　　return True

　　else:

　　return False

　　邊緣檢測算法，確定位置

　　滑塊基本上是個方形，通過算法確定方形起始位置即可。

Picture(4)

　　滑塊是方形的，存在垂直與水平的邊，該邊在缺失滑塊圖中基本都是灰黑的。遍歷像素找到基本都是灰黑的邊即可。這種實現(xiàn)方式會存在檢測不出或錯誤的情況，使用時需要換一張驗證碼。也可能存在檢測出的邊是另一條(因為B站的滑塊不是長方形，存在弧形邊)，那么需要減去滑塊寬度。

　　代碼如下(結(jié)合selenium完成)：

　　class VerifyImageUtil():

　　def __init__(self):

　　self.defaultConfig = {

　　"grayOffset": 20,

　　"opaque": 1,

　　"minVerticalLineCount": 30

　　}

　　self.config = copy.deepcopy(self.defaultConfig)

　　def updateConfig(self, config):

　　for k in self.config:

　　if k in config.keys():

　　self.config[k] = config[k]

　　def getMaxOffset(self, *args):

　　# 計算偏移平均值最大的數(shù)

　　av = sum(args) / len(args)

　　maxOffset = 0

　　for a in args:

　　offset = abs(av - a)

　　if offset > maxOffset:

　　maxOffset = offset

　　return maxOffset

　　def isGrayPx(self, r, g, b):

　　# 是否是灰度像素點，允許波動offset

　　return self.getMaxOffset(r, g, b) < self.config["grayOffset"]

　　def isDarkStyle(self, r, g, b):

　　# 灰暗風(fēng)格

　　return r < 128 and g < 128 and b < 128

　　def isOpaque(self, px):

　　# 不透明

　　return px[3] >= 255 * self.config["opaque"]

　　def getVerticalLineOffsetX(self, bgImage):

　　bgBytes = bgImage.load()

　　x = 0

　　while x < bgImage.size[0]:

　　y = 0

　　# 點,線，灰度線條數(shù)量

　　verticalLineCount = 0

　　while y < bgImage.size[1]:

　　px = bgBytes[x, y]

　　r = px[0]

　　g = px[1]

　　b = px[2]

　　if self.isDarkStyle(r, g, b) and self.isGrayPx(r, g, b) and self.isOpaque(px):

　　verticalLineCount += 1

　　else:

　　verticalLineCount = 0

　　y += 1

　　continue

　　if verticalLineCount >= self.config["minVerticalLineCount"]:

　　# 連續(xù)多個像素都是灰度像素，直線，認(rèn)為需要滑動這么多

　　# print(x, y)

　　return x

　　y += 1

　　x += 1

　　完整步驟

　　本案例采用的是邊緣檢測算法。

　　步驟一：啟動selenium，獲取驗證碼圖片，方便查看預(yù)覽

　　from selenium import webdriver

　　import time

　　import base64

　　from PIL import Image

　　from io import BytesIO

　　from selenium.webdriver.support.ui import WebDriverWait

　　def checkVeriImage(driver):

　　# 等待畫布加載完畢

　　WebDriverWait(driver, 5).until(

　　lambda driver: driver.find_element_by_css_selector('.geetest_canvas_bg.geetest_absolute'))

　　time.sleep(1)

　　# 獲取有缺口的圖片

　　im_info = driver.execute_script(

　　'return document.getElementsByClassName("geetest_canvas_bg geetest_absolute")[0].toDataURL("image/png");')

　　# 得到base64編碼的圖片信息

　　im_base64 = im_info.split(',')[1]

　　# 轉(zhuǎn)為bytes類型

　　im_bytes = base64.b64decode(im_base64)

　　with open('./tempbg.png', 'wb') as f:

　　# 保存圖片到本地，方便查看預(yù)覽

　　f.write(im_bytes)

　　image_data = BytesIO(im_bytes)

　　bgImage = Image.open(image_data)

　　# 計算offsetx的長度

　　offsetX = VerifyImageUtil().getVerticalLineOffsetX(bgImage)

　　# 獲取滑塊按鈕

　　eleDrag = driver.find_element_by_css_selector(".geetest_slider_button")

　　action_chains = webdriver.ActionChains(driver)

　　# 拖動滑塊按鈕，注意滑塊距離左邊有 5~10 像素左右誤差

　　action_chains.drag_and_drop_by_offset(eleDrag,offsetX-10,0).perform()

　　貌似沒有問題了，但是總是出現(xiàn)這句話：拼圖被怪物吃掉了，請重試。這是因為被檢測到機器人(爬蟲)操作了。所以我們滑動的動作要更像我們?nèi)藶榈男袨?。如何避開人機的識別?分析原因是：webdriver.ActionChains(driver).draganddropbyoffset(eleDrag,offsetX-10,0).perform() 拖動滑塊動作太快了的緣故。當(dāng)然期間宋宋也這樣實現(xiàn)過：

　　action_chains = webdriver.ActionChains(driver)

　　action_chains.click_and_hold(slider).perform()

　　action_chains.pause(0.2)

　　ran = random.randint(1,50)

　　action_chains.move_by_offset(xoffset=distance - ran, yoffset=0)

　　action_chains.pause(0.6)

　　action_chains.move_by_offset(xoffset=ran-10, yoffset=0)

　　action_chains.pause(0.5)

　　action_chains.move_by_offset(xoffset=4, yoffset=0)

　　action_chains.pause(0.4)

　　action_chains.move_by_offset(xoffset=5, yoffset=0)

　　action_chains.pause(0.6)

　　action_chains.move_by_offset(xoffset=1, yoffset=0)

　　action_chains.pause(0.6)

　　action_chains.release()

　　action_chains.perform()

　　就是慢點實現(xiàn)多拖動幾次并且加入了休眠，但是這么做還是不會成功的，仍然會提示：拼圖被怪物吃掉了，請重試

　　稍微改進(jìn)一下(使用了 actionchains.moveby_offset(10,0)用于修正)：

　　action_chains = webdriver.ActionChains(self.driver)

　　# 點擊，準(zhǔn)備拖拽

　　action_chains.click_and_hold(source)

　　action_chains.pause(0.2)

　　action_chains.move_by_offset(targetOffsetX-10,0)

　　action_chains.pause(0.6)

　　action_chains.move_by_offset(10,0)

　　action_chains.pause(0.6)

　　action_chains.release()

　　action_chains.perform()

　　但是驗證成功的概率也是挺低的。為了更像人類操作，可以進(jìn)行拖拽間隔時間和拖拽次數(shù)、距離的隨機化，于是來個更加完美版。

　　def simulateDragX(self, source, targetOffsetX):

　　"""

　　模仿人的拖拽動作：快速沿著X軸拖動(存在誤差)，再暫停，然后修正誤差

　　防止被檢測為機器人，出現(xiàn)“圖片被怪物吃掉了”等驗證失敗的情況

　　:param source:要拖拽的html元素

　　:param targetOffsetX: 拖拽目標(biāo)x軸距離

　　:return: None

　　"""

　　action_chains = webdriver.ActionChains(self.driver)

　　# 點擊，準(zhǔn)備拖拽

　　action_chains.click_and_hold(source)

　　# 拖動次數(shù)，二到三次

　　dragCount = random.randint(2, 3)

　　if dragCount == 2:

　　# 總誤差值

　　sumOffsetx = random.randint(-15, 15)

　　action_chains.move_by_offset(targetOffsetX + sumOffsetx, 0)

　　# 暫停一會

　　action_chains.pause(self.__getRadomPauseScondes())

　　# 修正誤差，防止被檢測為機器人，出現(xiàn)圖片被怪物吃掉了等驗證失敗的情況

　　action_chains.move_by_offset(-sumOffsetx, 0)

　　elif dragCount == 3:

　　# 總誤差值

　　sumOffsetx = random.randint(-15, 15)

　　action_chains.move_by_offset(targetOffsetX + sumOffsetx, 0)

　　# 暫停一會

　　action_chains.pause(self.__getRadomPauseScondes())

　　# 已修正誤差的和

　　fixedOffsetX = 0

　　# 第一次修正誤差

　　if sumOffsetx < 0:

　　offsetx = random.randint(sumOffsetx, 0)

　　else:

　　offsetx = random.randint(0, sumOffsetx)

　　fixedOffsetX = fixedOffsetX + offsetx

　　action_chains.move_by_offset(-offsetx, 0)

　　action_chains.pause(self.__getRadomPauseScondes())

　　# 最后一次修正誤差

　　action_chains.move_by_offset(-sumOffsetx + fixedOffsetX, 0)

　　action_chains.pause(self.__getRadomPauseScondes())

　　else:

　　raise Exception("莫不是系統(tǒng)出現(xiàn)了問題?!")

　　action_chains.release().perform()

　　哇!真的成功啦!完美!

tags:

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通

免費領(lǐng)取

今日已有369人領(lǐng)取成功

劉同學(xué) 138****2860 剛剛成功領(lǐng)取

王同學(xué) 131****2015 剛剛成功領(lǐng)取

張同學(xué) 133****4652 剛剛成功領(lǐng)取

李同學(xué) 135****8607 剛剛成功領(lǐng)取

楊同學(xué) 132****5667 剛剛成功領(lǐng)取

岳同學(xué) 134****6652 剛剛成功領(lǐng)取

梁同學(xué) 157****2950 剛剛成功領(lǐng)取

劉同學(xué) 189****1015 剛剛成功領(lǐng)取

張同學(xué) 155****4678 剛剛成功領(lǐng)取

鄒同學(xué) 139****2907 剛剛成功領(lǐng)取

董同學(xué) 138****2867 剛剛成功領(lǐng)取

周同學(xué) 136****3602 剛剛成功領(lǐng)取

上一篇

知道nextTick的作用嗎

下一篇

爬蟲之圖片驗證碼處理

免費打包獲取

相關(guān)推薦HOT

Visual Studio Online和GitHub有什么區(qū)別?

1.定位不同Visual Studio Online，現(xiàn)更名為Visual Studio Codespaces，是微軟提供的一款在線開發(fā)環(huán)境，允許開發(fā)者在云端進(jìn)行編程和調(diào)試工作。而...詳情>>

2023-10-15 00:21:42

什么是域控制器?

一、域控制器的定義域控制器是指在Windows Server操作系統(tǒng)中部署Active Directory服務(wù)的服務(wù)器。Active Directory是微軟公司開發(fā)的目錄服務(wù)，用...詳情>>

2023-10-15 00:10:28

深度學(xué)習(xí)模型權(quán)重h5、weights、ckpt、pth有什么區(qū)別?

1.來源框架不同h5格式通常用于Keras和TensorFlow框架，weights用于Darknet框架，ckpt是TensorFlow框架的一種格式，而pth則主要用于PyTorch框架...詳情>>

2023-10-15 00:05:17

大數(shù)據(jù)測試工程師需要具備哪些技能?

一、理解大數(shù)據(jù)概念大數(shù)據(jù)測試工程師需要理解大數(shù)據(jù)的基本概念和原理，如分布式存儲、MapReduce、實時計算等。他們還需要了解如何處理大規(guī)模的...詳情>>

2023-10-14 23:43:03

為什么SpringBoot的 jar 可以直接運行?

一、JAR文件的結(jié)構(gòu)與執(zhí)行方式Spring Boot的JAR包是Java Archive的縮寫，它是一種壓縮文件格式，可以將Java項目的類文件、資源文件以及依賴庫等...詳情>>

2023-10-14 23:01:49

熱門推薦

Visual Studio Online和GitHub有什么區(qū)別?

計算機視覺中所指的深度和深度學(xué)習(xí)中的深度有什么區(qū)別?

顯著性目標(biāo)檢測和一般目標(biāo)檢測最本質(zhì)的區(qū)別是什么區(qū)別?

在目標(biāo)檢測里single-shot和multi-shot的主要區(qū)別是什么?

APP安全測試與普通B/S架構(gòu)的滲透測試有什么區(qū)別?

什么是域控制器?

圖卷積網(wǎng)絡(luò)和self-attention有什么區(qū)別?

深度學(xué)習(xí)模型權(quán)重h5、weights、ckpt、pth有什么區(qū)別?

機器學(xué)習(xí)中Inference和predict的區(qū)別是什么?

kd-tree和ball-tree在算法實現(xiàn)原理上有什么區(qū)別?

技術(shù)干貨更多>>

如何實現(xiàn)服務(wù)器負(fù)載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅(qū)動嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學(xué)習(xí)環(huán)境

2023-12-06

職場就業(yè) 更多>>

網(wǎng)絡(luò)安全軟件開發(fā)的就業(yè)前景

2023-12-09

學(xué)會python工程師后的就業(yè)前景

2023-12-09

學(xué)會java工程師后的就業(yè)前景

2023-12-09

云計算技術(shù)就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

快速通道

培訓(xùn)機構(gòu)
了解培訓(xùn)相關(guān)
就業(yè)前景
查看就業(yè)前景
培訓(xùn)門檻
了解學(xué)習(xí)門檻
應(yīng)聘面試
常見面試考題
就業(yè)服務(wù)
畢業(yè)推薦就業(yè)
師資團(tuán)隊
了解師資團(tuán)隊

千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機站

<small id="f1kbn"><u id="f1kbn"><div id="f1kbn"></div></u></small>