很多小伙伴在跟著視頻學(xué)習(xí)爬蟲的時候總是能完成一個爬蟲,但自己獨立開發(fā)就開發(fā)不了,原因是自己并沒有網(wǎng)頁分析的能力,不懂得如何從網(wǎng)頁中獲取相應(yīng)的數(shù)據(jù),更有甚者連網(wǎng)絡(luò)分析的能力都沒有,請求頁面總是被服務(wù)器拒絕。實際上瀏覽器為我們提供的F12開發(fā)者工具是一個非常不錯的網(wǎng)頁分析和網(wǎng)絡(luò)分析的工具。接下來我們就來講講如何用F12開發(fā)者工具進行網(wǎng)頁和網(wǎng)絡(luò)分析吧。
網(wǎng)頁分析
爬蟲的目的,就是從網(wǎng)頁中獲取到某一元素的某個值,這一點其實很簡單,只要能定位到元素就可以獲取到它的值了。在小編的自動化測試開發(fā)輔助工具——F12開發(fā)者工具介紹!中介紹了如何定位元素,在文末也介紹了另一種定位方式——css定位,實際上在python中有一個庫叫beautifulsoup,這個庫可以通過css來定位元素并獲取它的值,各位小伙伴可以前往beautifulsoup教程進行學(xué)習(xí)。
另一個更加出名的xml解析庫叫l(wèi)xml,這個庫不止可以通過css定位元素,也可以用想xpath來進行定位,詳情可以看:lxml教程
網(wǎng)絡(luò)分析
爬蟲的基本動作第一步就是向服務(wù)器發(fā)起請求并獲取響應(yīng),然后才是對響應(yīng)的處理,因為響應(yīng)一般對應(yīng)的是頁面的HTML代碼,所以網(wǎng)頁分析的作用在這里體現(xiàn)。然而爬蟲請求服務(wù)器一般都會被發(fā)現(xiàn),因為爬蟲沒有請求頭的掩護(相當于直接告訴瀏覽器我是爬蟲),在F12開發(fā)者工具中有一項網(wǎng)絡(luò)功能,它可以記錄頁面和服務(wù)器之間的請求和響應(yīng)。
點擊即可看到詳細的信息:
從請求和返回的響應(yīng)中我們可以獲得很多內(nèi)容,在上述圖中已有注明,主要對爬蟲開發(fā)有關(guān)的有cookie,瀏覽器的user-agent,請求時傳遞的參數(shù)和請求url分析等。其實這個工具還給我們提供了很多內(nèi)容,但小編水平有限只能用這么多,小伙伴們可以繼續(xù)往深處挖掘。
小結(jié)
對于爬蟲開發(fā)而言,網(wǎng)絡(luò)分析和網(wǎng)頁分析才是爬蟲開發(fā)的要點,python代碼編程只是實現(xiàn)爬蟲的方式罷了。如果你還學(xué)不會爬蟲編程,請好好思考你是否已經(jīng)學(xué)會了網(wǎng)絡(luò)分析和網(wǎng)頁分析?;蛘吒唵蔚兀耗闶欠駥W(xué)會了使用F12開發(fā)者工具。以上就是這篇文章的全部內(nèi)容了,更多F12開發(fā)者工具的其他有用的內(nèi)容可以關(guān)注W3Cschool的后續(xù)內(nèi)容,小編在這里等著你!