Python異步爬蟲(chóng)實(shí)現(xiàn)原理與知識(shí)總結(jié)

來(lái)源: 雨晨的清風(fēng) 2021-08-17 15:09:34 瀏覽數(shù) (3360)

反饋

我們剛開(kāi)始學(xué)習(xí)爬蟲(chóng)的時(shí)候，往往學(xué)習(xí)的都是單線程的同步類型的爬蟲(chóng)。這樣的爬蟲(chóng)在遇到阻塞的時(shí)候會(huì)將進(jìn)程掛起，十分耗費(fèi)時(shí)間。使用異步爬蟲(chóng)就可以在單個(gè)進(jìn)程阻塞的時(shí)候其他進(jìn)程也繼續(xù)工作。那么python異步爬蟲(chóng)的怎么實(shí)現(xiàn)呢？今天小編就帶來(lái)了一篇python異步爬蟲(chóng)的實(shí)現(xiàn)原理和知識(shí)總結(jié)。

多線程爬蟲(chóng)對(duì)服務(wù)器的請(qǐng)求是比較頻繁的，這樣會(huì)給目標(biāo)服務(wù)器造成很大的負(fù)擔(dān)，很容易被對(duì)方警告。另外，非法爬取別人網(wǎng)站的信息是會(huì)被法律制裁的，在學(xué)習(xí)爬蟲(chóng)的時(shí)候請(qǐng)注意爬蟲(chóng)的度（不要使用次數(shù)很多的循環(huán)，不使用多線程，一次只爬取少量數(shù)據(jù)）。

一、背景

默認(rèn)情況下，用get請(qǐng)求時(shí)，會(huì)出現(xiàn)阻塞，需要很多時(shí)間來(lái)等待，對(duì)于有很多請(qǐng)求url時(shí)，速度就很慢。因?yàn)樾枰粋€(gè)url請(qǐng)求的完成，才能讓下一個(gè)url繼續(xù)訪問(wèn)。一種很自然的想法就是用異步機(jī)制來(lái)提高爬蟲(chóng)速度。通過(guò)構(gòu)建線程池或者進(jìn)程池完成異步爬蟲(chóng)，即使用多線程或者多進(jìn)程來(lái)處理多個(gè)請(qǐng)求（在別的進(jìn)程或者線程阻塞時(shí)）。

import time 
#串形
 
def getPage(url):
    print("開(kāi)始爬取網(wǎng)站",url)
    time.sleep(2)#阻塞
    print("爬取完成?。?！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#開(kāi)始計(jì)時(shí)
 
for url in urls:
    getPage(url)
 
endTime= time.time()#結(jié)束計(jì)時(shí)
print("完成時(shí)間%d"%(endTime - beginTime))

下面通過(guò)模擬爬取網(wǎng)站來(lái)完成對(duì)多線程，多進(jìn)程，協(xié)程的理解。

二、多線程實(shí)現(xiàn)

import time 
#使用線程池對(duì)象
from multiprocessing.dummy import Pool
 
def getPage(url):
    print("開(kāi)始爬取網(wǎng)站",url)
    time.sleep(2)#阻塞
    print("爬取完成?。?！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#開(kāi)始計(jì)時(shí)
 
#準(zhǔn)備開(kāi)啟5個(gè)線程,并示例化對(duì)象
pool = Pool(5)
pool.map(getPage, urls)#urls是可迭代對(duì)象，里面每個(gè)參數(shù)都會(huì)給getPage方法處理
 
endTime= time.time()#結(jié)束計(jì)時(shí)
print("完成時(shí)間%d"%(endTime - beginTime))

完成時(shí)間只需要2s!!!!!!!!

線程池使用原則：適合處理耗時(shí)并且阻塞的操作

三、協(xié)程實(shí)現(xiàn)

單線程+異步協(xié)程?。。。。。。。。。?qiáng)烈推薦，目前流行的方式。

相關(guān)概念：

#%%
import time 
#使用協(xié)程
import asyncio
 
 
async def getPage(url):  #定義了一個(gè)協(xié)程對(duì)象，python中函數(shù)也是對(duì)象
    print("開(kāi)始爬取網(wǎng)站",url)
    time.sleep(2)#阻塞
    print("爬取完成?。?！",url)
    
#async修飾的函數(shù)返回的對(duì)象    
c = getPage(11)
 
#創(chuàng)建事件對(duì)象
loop_event = asyncio.get_event_loop()
#注冊(cè)并啟動(dòng)looP
loop_event.run_until_complete(c)
 
#task對(duì)象使用，封裝協(xié)程對(duì)象c
'''
loop_event = asyncio.get_event_loop()
task = loop_event.create_task(c)
loop_event.run_until_complete(task)
'''
 
#Future對(duì)象使用，封裝協(xié)程對(duì)象c            用法和task差不多
'''
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c)
loop_event.run_until_complete(task)
'''
 
#綁定回調(diào)使用
 
async def getPage2(url):  #定義了一個(gè)協(xié)程對(duì)象，python中函數(shù)也是對(duì)象
    print("開(kāi)始爬取網(wǎng)站",url)
    time.sleep(2)#阻塞
    print("爬取完成！??！",url)
    return url
    
#async修飾的函數(shù)返回的對(duì)象    
c2 = getPage2(2)
 
def callback_func(task):
    print(task.result()) #task.result()返回任務(wù)對(duì)象中封裝的協(xié)程對(duì)象對(duì)應(yīng)函數(shù)的返回值
 
 
#綁定回調(diào)
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c2)
 
task.add_done_callback(callback_func)  #真正綁定，
loop_event.run_until_complete(task)

輸出：

四、多任務(wù)協(xié)程實(shí)現(xiàn)

import time 
#使用多任務(wù)協(xié)程
import asyncio
 
 
 
 
urls = ['url1','url2','url3','url4','url5']
 
 
 
async def getPage(url):  #定義了一個(gè)協(xié)程對(duì)象，python中函數(shù)也是對(duì)象
    print("開(kāi)始爬取網(wǎng)站",url)
    #在異步協(xié)程中如果出現(xiàn)同步模塊相關(guān)的代碼，那么無(wú)法實(shí)現(xiàn)異步
    #time.sleep(2)#阻塞
    await asyncio.sleep(2)#遇到阻塞操作必須手動(dòng)掛起
    print("爬取完成！??！",url)
    return url
    
 
beginTime = time.time()  
 
 
#任務(wù)列表，有多個(gè)任務(wù)
tasks = []
 
for url in urls:
    c = getPage(url)
    task = asyncio.ensure_future(c)#創(chuàng)建任務(wù)對(duì)象
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))#不能直接放task，需要封裝進(jìn)入asyncio,wait()方法中
 
endTime = time.time()   
print("完成時(shí)間%d"%(endTime - beginTime))

此時(shí)不能用time.sleep(2)，用了還是10秒

對(duì)于真正爬取過(guò)程中，如在getPage()方法中真正爬取數(shù)據(jù)時(shí)，即requests.get(url) ,它是基于同步方式實(shí)現(xiàn)。應(yīng)該使用異步網(wǎng)絡(luò)請(qǐng)求模塊aiohttp

參考下面代碼：

async def getPage(url):  #定義了一個(gè)協(xié)程對(duì)象，python中函數(shù)也是對(duì)象
    print("開(kāi)始爬取網(wǎng)站",url)
    #在異步協(xié)程中如果出現(xiàn)同步模塊相關(guān)的代碼，那么無(wú)法實(shí)現(xiàn)異步
    #requests.get(url)#阻塞
    async with aiohttp.ClintSession() as session:
 
                     async with await  session.get(url) as response: #手動(dòng)掛起
 
                                       page_text =  await response.text() #.text()返回字符串，read()返回二進(jìn)制數(shù)據(jù)，注意不是content
    print("爬取完成?。?！",url)
    return page_text

到此這篇Python異步爬蟲(chóng)的實(shí)現(xiàn)原理與知識(shí)總結(jié)就介紹到這里了，希望能給小伙伴帶來(lái)幫助，也希望大家以后多多支持W3Cschool！

Python

0 人點(diǎn)贊

Python異步爬蟲(chóng)實(shí)現(xiàn)原理與知識(shí)總結(jié)

一、背景

二、多線程實(shí)現(xiàn)

三、協(xié)程實(shí)現(xiàn)

四、多任務(wù)協(xié)程實(shí)現(xiàn)

一、背景

三、協(xié)程實(shí)現(xiàn)

四、多任務(wù)協(xié)程實(shí)現(xiàn)