怎么用python爬數(shù)據(jù)？python爬蟲基礎(chǔ)介紹！

猿友 2021-06-02 16:15:05 瀏覽數(shù) (4776)

反饋

如果說當(dāng)下最熱門的語言，那非屬 python 不可。如果說 python 最火熱的方向是哪個(gè)，那么爬蟲絕對(duì)有一席之地。現(xiàn)在的許多 python 培訓(xùn)課程，都喜歡拿 python 爬蟲來增加學(xué)員的學(xué)習(xí)興趣。那么，怎么用 python 爬取數(shù)據(jù)？小編接下來帶你了解一個(gè) python 爬蟲的開發(fā)流程。

小編先放上一個(gè)示例代碼（以當(dāng)當(dāng)好評(píng)榜 TOP500 為例），以下介紹基于該代碼進(jìn)行介紹。

import requests  # 引入request庫進(jìn)行頁面請(qǐng)求
from requests.exceptions import RequestException  # 引入RequestException來捕獲request可能出現(xiàn)的異常
import re  # 引入re庫來進(jìn)行正則匹配
import json  # 引入json 來進(jìn)行json格式轉(zhuǎn)化


def get(url):  # 將請(qǐng)求方法封裝，方便使用try語句捕捉異常
    try:
        response = requests.get(url)  # 使用request的get方法獲取響應(yīng)流
        if response.status_code == 200:  # 處理響應(yīng)流，如果不是200響應(yīng)，則返回None
            return response.text  # 將響應(yīng)流以文本方式返回
        return None
    except RequestException:
        return None


def parse(text):  # 將正則匹配方法封裝，使代碼模塊化
    pattern = re.compile('<li>.*?list_num.*?>(.*?)</div>.*?pic.*?src="(.*?)".*?/></a>.*?name"><a.*?title="('
                         '.*?)">.*?tuijian">(.*?)</span>.*?publisher_info.*?title="(.*?)".*?biaosheng.*?<span>('
                         '.*?)</span>.*?</li>', re.S)  # 設(shè)定正則表達(dá)式匹配規(guī)則
    items = re.findall(pattern, text)  # 使用正則匹配對(duì)傳入的text文本進(jìn)行正則匹配，并將匹配成功的結(jié)果保存在items
    return items  # 將匹配的結(jié)果返回


if __name__ == "__main__":
    target_url = "http://bang.dangdang.com/books/fivestars/"  # 目標(biāo)爬取的頁面url
    html = get(target_url)  # 使用封裝好的get方法將整個(gè)目標(biāo)HTML頁面爬取下來
    for item in parse(html):  # 使用封裝好的正則匹配方法對(duì)目標(biāo)HTML進(jìn)行正則匹配，然后用一個(gè)循環(huán)將結(jié)果進(jìn)行處理
        print(item)
        # 接下來是將結(jié)果寫入txt文件的操作
        with open('book.txt', 'a', encoding='UTF-8') as f:
            f.write(json.dumps(item, ensure_ascii=False) + '\n')  # 使用json庫的dumps方法將列表對(duì)象轉(zhuǎn)變成json對(duì)象(字符串)，然后寫入文本
            f.close()

爬蟲開發(fā)第一步：網(wǎng)頁分析

爬蟲開發(fā)的第一步，是對(duì)目標(biāo)網(wǎng)頁進(jìn)行分析，首先要知道你需要的目標(biāo)數(shù)據(jù)在哪里，這里使用開發(fā)者工具查看整個(gè)頁面結(jié)構(gòu)，發(fā)現(xiàn)目標(biāo)數(shù)據(jù)在一個(gè) ?<li>? 元素中，所以開發(fā)思路是，將這個(gè)頁面的數(shù)據(jù)獲取下來，然后獲取數(shù)據(jù)中的 ?<li>? 元素（里面的有用的數(shù)據(jù)）。

f12開發(fā)者工具進(jìn)行元素定位

爬蟲開發(fā)第二步，數(shù)據(jù)爬取

經(jīng)過第一步的分析，我們已經(jīng)大致有了爬蟲的思路了，所以現(xiàn)在要做的，就是把這個(gè)頁面爬取下來。這時(shí)候 request 庫出場(chǎng)了。使用 request 的 ?get() ?方法，可以將目標(biāo)頁面的 html 爬下來。得到了目標(biāo)頁面的 html（代碼中將其存儲(chǔ)在 html 字符串中）。就可以進(jìn)行接下來的操作了。

爬蟲開發(fā)第三步，數(shù)據(jù)處理

使用正則表達(dá)式，匹配代碼中的目標(biāo)數(shù)據(jù)（也就是之前分析的li元素里的有用的數(shù)據(jù)）。并將其放進(jìn)一個(gè) ?items? 列表中。完成到這一步，數(shù)據(jù)的爬取分析也就基本結(jié)束了。只要將爬取的結(jié)果進(jìn)行保存就可以了。

爬蟲開發(fā)第四步，數(shù)據(jù)保存

小編這里使用python自帶的文件讀寫函數(shù)，將數(shù)據(jù)以json的格式保存在一個(gè)叫 ?book.txt? 的文件中。

小結(jié)

現(xiàn)在大多數(shù)網(wǎng)頁爬蟲的開發(fā)方式基本都是上面的四步，python 的爬蟲結(jié)構(gòu)也大同小異。不過隨著更多更好的工具出現(xiàn)，以及網(wǎng)站反爬意識(shí)的加強(qiáng)，最新的爬蟲往往需要更好開發(fā)工具庫和更多的配置。更多爬蟲知識(shí)學(xué)習(xí)，可以前往 python課程進(jìn)行學(xué)習(xí)（內(nèi)有爬蟲課程）。

注：小編警告，非法爬取網(wǎng)站數(shù)據(jù)，會(huì)對(duì)網(wǎng)站的日常運(yùn)營造成一定的負(fù)擔(dān)，這種行為也是違法行為，請(qǐng)勿惡意爬取別人的網(wǎng)站數(shù)據(jù)，在 python 爬蟲的學(xué)習(xí)過程中也盡量少用較高次數(shù)的循環(huán)語句進(jìn)行爬??！

Python

0 人點(diǎn)贊

怎么用python爬數(shù)據(jù)？python爬蟲基礎(chǔ)介紹！

怎么用python爬數(shù)據(jù)？python爬蟲基礎(chǔ)介紹！