被稱之為永遠的神！就這6個Python爬蟲開源專案？

阿新 • • 發佈：2021-10-26

今天盤點 6 個爬蟲開源專案，它們可以幫你爬天爬地爬空氣，爬微博、爬B站、爬知乎、爬*站。

提前宣告，切勿使用這些專案從事非法商業活動，僅用於用於科研學習

很多人學習python，不知道從何學起。

很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。

很多已經做案例的人，卻不知道如何去學習更加高深的知識。

那麼針對這三類人，我給大家提供一個好的學習平臺，免費領取視訊教程，電子書籍，以及課程的原始碼！

QQ群：701698587

歡迎加入，一起討論 一起學習！

01 微博爬蟲

這個開源專案程式可以持續爬取一個或多個新浪微博使用者（如李文di、無疫煩）的資料，並將結果資訊寫入檔案或資料庫。寫入資訊幾乎包括使用者微博的所有資料，包括使用者資訊和微博資訊兩大類。

地址：https://github.com/dataabc/weiboSpider

爬取結果可寫入檔案和資料庫，具體的寫入檔案型別如下：

txt檔案
csv檔案
json檔案
MySQL資料庫
MongoDB資料庫
SQLite資料庫

同時支援下載微博中的圖片和視訊，具體的可下載檔案如下：

原創微博中的原始圖片
轉發微博中的原始圖片
原創微博中的視訊
轉發微博中的視訊
原創微博Live Photo中的視訊
轉發微博Live Photo中的視訊

首先需要修改 config.json 檔案，然後爬取，程式會自動生成一個 weibo 資料夾，我們以後爬取的所有微博都被儲存在這裡。

然後程式在該資料夾下生成一個名為"微博名字"的資料夾，明星的所有微博爬取結果都在這裡。資料夾裡包含一個csv檔案、一個txt檔案、一個json檔案、一個img資料夾和一個video資料夾，img資料夾用來儲存下載到的圖片，video資料夾用來儲存下載到的視訊。如果你設定了儲存資料庫功能，這些資訊也會儲存在資料庫裡，資料庫設定見設定資料庫部分。

02 Python爬蟲教程

Python爬蟲教程系列、從 0 到 1 學習 Python 爬蟲，包括瀏覽器抓包，手機 APP 抓包，如 fiddler、mitmproxy，各種爬蟲涉及的模組的使用，如：requests、beautifulSoup、selenium、appium、scrapy 等，以及驗證碼識別，MySQL，MongoDB 資料庫的 Python 使用，多執行緒多程序爬蟲的使用，css 爬蟲加密逆向破解，JS爬蟲逆向，分散式爬蟲，爬蟲專案實戰例項等。

地址：https://github.com/wistbean/learn_python3_spider

03 爬蟲集合

這個開源專案收集了各種爬蟲，包括 Blibli、部落格園、百度百科、北郵人、百度雲網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公眾號、網易雲等等，你能想到的國內外網站爬蟲，都可以先來這裡看看有沒有開源的爬蟲。

地址：https://github.com/facert/awesome-spider

04 智慧爬蟲平臺

這個開源平臺以流程圖的方式定義爬蟲，是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。

地址：https://gitee.com/ssssssss-team/spider-flow

接下來以流程圖的方式，開始配置一些變數和引數，點開始就能爬出你想要的資料。

05 Java爬蟲

Spiderman 是一個Java開源Web資料抽取工具，它能夠收集指定的Web頁面並從這些頁面中提取有用的資料。

Spiderman主要是運用了像XPath，正則表示式等這些技術來實資料抽取。

地址：https://gitee.com/l-weiwei/spiderman

06 爬蟲大全

這個開源專案包含多種網站、電商資料爬蟲。包含：淘寶商品、微信公眾號、大眾點評、招聘網站、閒魚、阿里任務、scrapy部落格園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文字採集、fofa資產採集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評️️️。

地址：https://gitee.com/AJay13/ECommerceCrawlers

美國數學家維納(N.Wiener)智力早熟，11歲就上了大學。他曾在1935~1936年應邀來中國清華大學講學。一次，他參加某個重要會議，年輕的臉孔引人注目。於是有人詢問他的年齡，他回答說：我年齡的立方是個4位數。我年齡的4次方是個6位數。這10個數字正好包含了從0到9這10個數字，每個都恰好出現1次。” 請你推算一下，他當時到底有多年輕。結果只有一個數。

#include<stdio.h>int main(){ int age=1; int san=0; int si=0; int sum=0;while(age>0) { san=age*age*age; si=age*age*age*age; int t1,t2,t3,t4; int f1,f2,f3,f4,f5,f6;

被稱之為永遠的神！就這6個Python爬蟲開源專案？

01

微博爬蟲

02

Python爬蟲教程

03

爬蟲集合

04

智慧爬蟲平臺

05

Java爬蟲

06

爬蟲大全

被稱之為永遠的神！就這6個Python爬蟲開源專案？

被位元組跳動T4級大佬鄙視了：讓你10倍提升認知效率，就這3個方法！

學會這七個Python GUI圖形介面化庫，就沒有做不出來的介面！超有用！

這6個電腦操作技巧，會讓你愛上Win10系統

我攤牌了，大廠面試Linux就這5個問題

使用這 6個Vue載入動畫庫來減少我們網站的跳出率

好的OKR應該有這6個特點

使用這6個技巧來物理保護 MacBook

SimpleDateFormat類的安全問題，這6個方案總有一個適合你

設計師一定要知道這6個，免費、可商用的圖片素材網站

弄懂這56個Python使用技巧(輕鬆掌握Python高效開發)

如果連這10個Python縮寫都不知道，那你一定是Python新手

超實用！整理了34個Python自動化辦公庫

6 個珍藏已久 IDEA 小技巧，這一波全部分享給你！

寫不出這種程式碼，就等著被leader開除吧！

盤點 6 個被淘汰的 Java 技術，它們都曾經風光過！

【轉載】Redis【入門】就這一篇！

力扣前400題解答筆記，全被位元組大神整理到了這份文件裡

重磅！青島這處新晉網紅打卡地火了，地點就在...

被稱之為永遠的神！就這6個Python爬蟲開源專案？

01

微博爬蟲

02

Python爬蟲教程

03

爬蟲集合

04

智慧爬蟲平臺

05

Java爬蟲

06

爬蟲大全

相關推薦