本文涉及的主要知識(shí)點(diǎn)如下:
- WEB 是如何交互的;
- requests 庫(kù)的 get、post 函數(shù)的應(yīng)用;
- response 對(duì)象的相關(guān)函數(shù)及其屬性。
環(huán)境:Python3.6 + Pycharm
庫(kù):requests
小編在本文中代碼都已給出了詳細(xì)注釋,并且可直接運(yùn)行。
首先,屏幕前的小伙伴們需要先安裝 requests 庫(kù),安裝之前需先安裝好 Python 環(huán)境,如未安裝,小編在這給小伙伴們提供最新的 Python 編譯器安裝教程:Python 最新 3.9.0 編譯器安裝教程。
安裝好 Python 環(huán)境后,windows 用戶打開(kāi) cmd 命令輸入以下命令即可(其余系統(tǒng)安裝大致相同)。
pip install requests
Linux 用戶:
sudo pip install requests
接下來(lái)就是實(shí)例講解啦,小伙伴們多多動(dòng)手操練吶!
1、爬取百度首頁(yè)頁(yè)面,并獲取頁(yè)面信息
實(shí)例
# 爬取百度頁(yè)面
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
resp = requests.get('http://www.baidu.com') #生成一個(gè)response對(duì)象
resp.encoding = 'utf-8' #設(shè)置編碼格式為 utf-8
print(resp.status_code) #打印狀態(tài)碼
print(resp.text) #輸出爬取的信息
2、requests 庫(kù) get 方法實(shí)例
在此之前先給大家介紹一個(gè)網(wǎng)址:httpbin.org,這個(gè)網(wǎng)站能測(cè)試 HTTP 請(qǐng)求和響應(yīng)的各種信息,比如 cookie、ip、headers 和登錄驗(yàn)證等,且支持 GET、POST 等多種方法,對(duì) web 開(kāi)發(fā)和測(cè)試很有幫助。它用 Python + Flask 編寫(xiě),是一個(gè)開(kāi)源項(xiàng)目。
官方網(wǎng)站:http://httpbin.org/
開(kāi)源地址:https://github.com/Runscope/httpbin
實(shí)例
# get方法實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
resp5、爬取網(wǎng)頁(yè)圖片,并保存到本地。5、爬取網(wǎng)頁(yè)圖片,并保存到本地。 = requests.get("http://httpbin.org/get") #get方法
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
3、requests 庫(kù) post 方法實(shí)例
實(shí)例
# post方法實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
resp = requests.post("http://httpbin.org/post") #post方法
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
4、requests庫(kù) put 方法實(shí)例
實(shí)例
# put方法實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
resp = requests.put("http://httpbin.org/put") # put方法
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
5、requests 庫(kù) get 方法傳參
想要使用 get 方法傳遞參數(shù),有兩種方法可行:
- 在 get 方法之后加上要傳遞的參數(shù)用“=”號(hào)鏈接并用“&”符號(hào)隔開(kāi);
- 使用 params 字典傳遞多個(gè)參數(shù)。實(shí)例如下:
實(shí)例
# get傳參方法實(shí)例1
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100") # get傳參
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
實(shí)例
# get傳參方法實(shí)例2
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
data = {
"name":"w3cschool",
"age":100
} #使用字典存儲(chǔ)傳遞參數(shù)
resp = requests.get( "http://httpbin.org/get" , params=data ) # get傳參
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
6、requests 庫(kù) post 方法傳參
使用 post 方法傳遞參數(shù)和使用 get 方法傳遞參數(shù)的方法二是類(lèi)似的。實(shí)例如下:
實(shí)例
# post傳參方法實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
data = {
"name":"w3cschool",
"age":100
} #使用字典存儲(chǔ)傳遞參數(shù)
resp = requests.post( "http://httpbin.org/post" , params=data ) # post傳參
print( resp.status_code ) #打印狀態(tài)碼
print( resp.text ) #輸出爬取的信息
7、如何繞過(guò)各大網(wǎng)站的反爬蟲(chóng)措施,以貓眼票房為例:
實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
url = 'http://piaofang.maoyan.com/dashboard' #貓眼票房網(wǎng)址地址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #設(shè)置頭部信息,偽裝瀏覽器
resp = requests.get(url, headers=headers) #
print(resp.status_code) #打印狀態(tài)碼
print(resp.text) #網(wǎng)頁(yè)信息
8、爬取網(wǎng)頁(yè)圖片,并保存到本地。
先在E盤(pán)建立一個(gè)爬蟲(chóng)目錄,才能夠保存信息,小伙伴們可自行選擇目錄保存,在代碼中更改相應(yīng)目錄代碼即可。
實(shí)例
import requests #導(dǎo)入requests爬蟲(chóng)庫(kù)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #設(shè)置頭部信息,偽裝瀏覽器
resp = requests.get('http://7n.w3cschool.cn/statics/img/logo/indexlogo@2x.png', headers = headers) #get方法的到圖片響應(yīng)
file = open("E:\\爬蟲(chóng)\\test.png","wb") #打開(kāi)一個(gè)文件,wb表示以二進(jìn)制格式打開(kāi)一個(gè)文件只用于寫(xiě)入
file.write(resp.content) #寫(xiě)入文件
file.close() #關(guān)閉文件操作
學(xué)以致用,希望屏幕前的小伙伴們能夠多多聯(lián)系,結(jié)合實(shí)際多加操作。推薦閱讀:Python 靜態(tài)爬蟲(chóng)、Python Scrapy網(wǎng)絡(luò)爬蟲(chóng)。