爬蟲爬到亂碼怎么辦？URL編碼解碼介紹！

猿友 2021-07-22 09:57:09 瀏覽數(shù) (4465)

反饋

很多小伙伴在剛開始學習使用爬蟲爬取網(wǎng)頁的時候都能夠爬取一個頁面完整內(nèi)容正確的html界面下來。小編剛開始的時候也是如此，直到小編某天碰上了自家網(wǎng)站的數(shù)據(jù)，才知道自己還是太年輕了。為什么呢？因為小編爬到的頁面一半是正常的html頁面和標簽，另一半夾雜著奇怪的亂碼。今天我們就來講解一下爬蟲爬到亂碼怎么辦吧！

案例

爬取到的亂碼

思路

很多情況出現(xiàn)亂碼的原因其實還是用戶（開發(fā)者）本身造成的。使用了錯誤的方式打開了一個文件，就會出現(xiàn)亂碼。比如說文本文件的UTF-8格式的文件被錯誤地使用GBK方式打開等。而上面的案例中實際上也是一種錯誤的打開方式（或者說，沒有完全打開）。實際上，看到上面的代碼我們第一反應是應該去查找這是什么代碼。根據(jù)小編的經(jīng)驗（沒有經(jīng)驗的也可以百度），這應該是URL編碼，然后小編找了站長工具進行測試后也確定了該編碼方式是URL編碼。

什么是URL編碼？

URL編碼是一種特殊的編碼形式，因為最開始應用于URL中所以得名URL編碼。我們知道URL中是不能出現(xiàn)中文還有其他非英文字符的（也可以理解為不能出現(xiàn)非ASCII碼表的字符），但我們又確實需要在URL中輸入一些非ASCII碼表字符（我們知道，GET方式傳參是將參數(shù)添加到URL后面的，如果不能在URL中輸入非ASCII字符，那么就意味著GET傳參不能實現(xiàn)其他文字的傳參），于是就出現(xiàn)了URL編碼的標準。URL編碼的方式是把非ASCII碼字符用%和可用的ASCII字符表示出來，這樣就能用這些ASCII字符去表示非ASCII字符了。

URL標簽欄不能出現(xiàn)中文

小伙伴們會說，你看這地址欄不是也出現(xiàn)了中文了嗎？其實這是瀏覽器的優(yōu)化，為了讓你清楚這個鏈接，瀏覽器在地址欄會將URL編碼進行解碼，所以你看到的會是中文

如何解URL編碼

在前端開發(fā)中對于這種數(shù)據(jù)一般是用JavaScript編寫一個解編碼的程序去進行解編碼（現(xiàn)在有很多現(xiàn)成的解編碼的js代碼段），小型的數(shù)據(jù)我們可以去站長工具里面解編碼（這種方式通常用來驗證是否是URL編碼）。但是我們是在爬蟲爬取數(shù)據(jù)的時候需要對這些URL代碼進行解編碼，所以我們要用python的方式去解決。

在python中有一個自帶的urllib庫，我們知道這個庫的request模塊可以進行請求，parse模塊可以對html代碼進行解析。實際上它也可對URL編碼進行解編碼，以下是解編碼的代碼示例，各位小伙伴可以拿去做參考。

import requests
import urllib.parse

url = "http://m.hgci.cn/article"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'}
data = requests.get(url, headers)
data = data.text
data =urllib.parse.unquote(data)
print(data)

解編碼

可以看到原本的亂碼變成了一段可閱讀的代碼，說明我們解碼成功了。

小結(jié)

以上就是關(guān)于URL編碼和URL編碼解碼的全部內(nèi)容，希望能給各位小伙伴帶來一絲幫助。也希望各位小伙伴能關(guān)注支持W3Cschool！

Python 編程基礎(chǔ)

0 人點贊

爬蟲爬到亂碼怎么辦？URL編碼解碼介紹！

案例

思路

什么是URL編碼？

如何解URL編碼

小結(jié)

爬蟲爬到亂碼怎么辦？URL編碼解碼介紹！