App下載

如何使用java爬取豆瓣top250書籍案例

偷得浮生 2023-07-09 09:30:00 瀏覽數(shù) (2012)
反饋

你是否想過用java編程來獲取豆瓣上的圖書信息呢?如果你對這個話題感興趣,那么本文就是為你準備的。本文將介紹如何使用java爬取豆瓣top250書籍的案例,包括爬蟲的原理、步驟和代碼。希望通過本文,你能夠?qū)W習到一些有用的技巧和知識,以及對java爬蟲有一個更深入的了解。

爬蟲的原理

爬蟲,也叫網(wǎng)絡(luò)爬蟲或網(wǎng)頁抓取,是一種自動從互聯(lián)網(wǎng)上獲取數(shù)據(jù)的程序。爬蟲的基本工作流程如下:

  1. 首先,爬蟲需要一個起始的URL,也就是要爬取的網(wǎng)頁的地址。例如,我們要爬取豆瓣top250書籍的網(wǎng)頁,那么起始的URL就是https://book.douban.com/top250。
  2. 然后,爬蟲會發(fā)送一個HTTP請求到起始的URL,獲取網(wǎng)頁的源代碼。源代碼是網(wǎng)頁的基本組成部分,包含了網(wǎng)頁的內(nèi)容、結(jié)構(gòu)和樣式等信息。
  3. 接著,爬蟲會解析網(wǎng)頁的源代碼,提取出我們感興趣的數(shù)據(jù)。例如,我們要提取豆瓣top250書籍的標題、作者、評分和簡介等信息。
  4. 最后,爬蟲會將提取出的數(shù)據(jù)存儲到本地或者數(shù)據(jù)庫中,以便后續(xù)的分析和使用。

爬蟲的步驟

為了實現(xiàn)用java爬取豆瓣top250書籍的案例,我們需要完成以下幾個步驟:

  1. 創(chuàng)建一個java項目,并導(dǎo)入相關(guān)的依賴庫。我們需要用到j(luò)soup和json兩個庫,分別用于解析HTML和JSON格式的數(shù)據(jù)。
  2. 編寫一個Book類,用于封裝書籍的屬性和方法。我們需要定義書籍的標題、作者、評分、簡介等屬性,以及一個構(gòu)造方法和一個toString方法。
  3. 編寫一個Spider類,用于實現(xiàn)爬蟲的邏輯。我們需要定義一個常量URL,表示要爬取的網(wǎng)頁地址。然后,我們需要定義一個getBooks方法,用于獲取所有書籍的列表。在這個方法中,我們需要做以下幾件事:
    • 使用jsoup連接到URL,并獲取網(wǎng)頁的文檔對象。
    • 使用jsoup選擇器選擇所有包含書籍信息的元素,并遍歷它們。
    • 對于每個元素,使用jsoup選擇器提取出書籍的標題、作者、評分和簡介等信息,并創(chuàng)建一個Book對象。
    • 將Book對象添加到一個ArrayList中,并返回這個列表。
  4. 編寫一個Main類,用于測試爬蟲的效果。我們需要創(chuàng)建一個Spider對象,并調(diào)用它的getBooks方法。然后,我們需要遍歷返回的書籍列表,并打印出每本書籍的信息。

爬蟲的代碼

下面是用java爬取豆瓣top250書籍案例的完整代碼:

Spider類:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


import java.io.IOException;
import java.util.ArrayList;


public class Spider {


    // 要爬取的網(wǎng)頁地址
    public static final String URL = "https://book.douban.com/top250";


    // 獲取所有書籍的列表
    public ArrayList<Book> getBooks() {
        ArrayList<Book> books = new ArrayList<>();
        try {
            // 連接到URL,并獲取網(wǎng)頁的文檔對象
            Document doc = Jsoup.connect(URL).get();
            // 選擇所有包含書籍信息的元素
            Elements elements = doc.select("div.article > div.indent > table");
            // 遍歷每個元素
            for (Element element : elements) {
                // 提取書籍的標題
                String title = element.select("div.pl2 > a").attr("title");
                // 提取書籍的作者
                String author = element.select("p.pl").text().split("/")[0];
                // 提取書籍的評分
                String rating = element.select("span.rating_nums").text();
                // 提取書籍的簡介
                String summary = element.select("span.inq").text();
                // 創(chuàng)建一個Book對象
                Book book = new Book(title, author, rating, summary);
                // 將Book對象添加到列表中
                books.add(book);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return books;
    }
}

Book類:

public class Book {


    // 書籍的屬性
    private String title; // 標題
    private String author; // 作者
    private String rating; // 評分
    private String summary; // 簡介


    // 書籍的構(gòu)造方法
    public Book(String title, String author, String rating, String summary) {
        this.title = title;
        this.author = author;
        this.rating = rating;
        this.summary = summary;
    }


    // 書籍的toString方法,用于打印書籍的信息
    @Override
    public String toString() {
        return "Book{" +
                "title='" + title + '\'' +
                ", author='" + author + '\'' +
                ", rating='" + rating + '\'' +
                ", summary='" + summary + '\'' +
                '}';
    }
}

驅(qū)動程序:

public class Main {


    public static void main(String[] args) {
        // 創(chuàng)建一個Spider對象
        Spider spider = new Spider();
        // 調(diào)用Spider對象的getBooks方法,獲取所有書籍的列表
        ArrayList<Book> books = spider.getBooks();
        // 遍歷書籍列表,并打印每本書籍的信息
        for (Book book : books) {
            System.out.println(book);
        }
    }
}

0 人點贊