colly是快如閃電而優(yōu)雅的爬蟲框架,提供簡潔的API能夠幫助你構建爬蟲應用。使用Colly,你可以輕松地從網(wǎng)站中提取結構化數(shù)據(jù),這些數(shù)據(jù)可用于廣泛的應用程序,如數(shù)據(jù)挖掘,數(shù)據(jù)處理或歸檔。
- 簡單的API
- 快速(單核上> 1k請求/秒)
- 控制請求延遲和每個域名的最大并發(fā)數(shù)
- 自動cookie和session處理
- 同步/異步/并行抓取
- 高速緩存
- 對非unicode響應自動編碼
- Robots.txt支持
- 分布式抓取
- 支持通過環(huán)境變量配置
- 隨意擴展
更多建議: