開源網路爬蟲彙總

阿新 • • 發佈：2018-11-20

Awesome-crawler-cn

網際網路爬蟲，蜘蛛，資料採集器，網頁解析器的彙總，因新技術不斷髮展，新框架層出不窮，此文會不斷更新...

交流討論

歡迎推薦你知道的開源網路爬蟲，網頁抽取框架.
開源網路爬蟲QQ交流群:322937592
email address: liinux at qq.com

Python

Scrapy - 一種高效的螢幕,網頁資料採集框架。
- django-dynamic-scraper - 基於Scrapy核心由django Web框架開發的爬蟲。
- Scrapy-Redis - 基於Scrapy核心採用Redis元件的爬蟲。
- scrapy-cluster - 基於Scrapy核心採用Redis 和 Kafka 開發的分散式爬蟲框架。
- distribute_crawler - 基於Scrapy核心採用redis, mongodb開發的分散式爬蟲框架。
pyspider - 一個強大純python的資料採集系統.
cola - 一個分散式的爬蟲框架.
Demiurge - 基於PyQuery的微型爬蟲框架.

Scrapely - 一個純python的HTML頁面捕捉庫.
feedparser - 一個通用的feed解析器.
you-get - 靜默網站爬去下載器.
Grab - 網站採集框架.
MechanicalSoup - 一個自動化的互動網站Python庫.
portia - 基於Scrapy的視覺化資料採集框架.
crawley - 基於非阻塞通訊(NIO)的python爬蟲框架.
RoboBrowser - 一個簡單的，不基於Web瀏覽器的基於Python的Web 瀏覽器.

MSpider - 一個基於gevent(協程網路庫)的python爬蟲.
brownant - 一個輕量級的網路資料抽取框架.

Java

Apache Nutch - 用於生產環境的高度可擴充套件的高度可擴充套件的網路爬蟲.
- anthelion - 一個基於Apache Nutch抓取語義註釋在HTML頁面外掛.
Crawler4j - 簡單和輕量級的網路爬蟲.
JSoup - 採集，分析，處理和清洗HTML頁面.
websphinx - HTML網站特定的處理、資訊提取.
Open Search Server - 全套搜尋功能，建立你自己的索引策略。分析、提取全文資料，這個框架可以索引的一切.
Gecco - 一個易於使用的輕量級網路爬蟲.
WebCollector -簡單的抓取網頁的介面，可以在不到5分鐘內部署一個多執行緒的網路爬蟲.
Webmagic -一個可擴充套件的爬蟲框架.
Spiderman -一個可擴充套件的，多執行緒的網路爬蟲.
- Spiderman2 - 分散式網路爬蟲框架，支援javascript渲染.
Heritrix3 - 可擴充套件，大規模的網路爬蟲專案.
SeimiCrawler - 一個敏捷的分散式爬蟲框架.
StormCrawler - 基於開放原始碼、構建低延遲的網路資源採集框架，基於Apache Storm.
Spark-Crawler - 基於Apache Nutch 的網路爬蟲，可以運行於Spark.

C#

ccrawler - 一個簡單的Web內容分類方案，它可以根據其內容分開網頁,基於C#3.5.
SimpleCrawler - 簡單的多執行緒網路爬蟲，基於REG表示式.
DotnetSpider - 基於C#開發的一個輕量級，交叉平臺的網路爬蟲.
Abot - 具有很好效率和可擴充套件性的C#網路爬蟲.
Hawk - 用 C#/WPF開發的網路爬蟲，具有簡單的ETL功能.
SkyScraper - 一個支援非同步網路和有很好擴充套件性的網路爬蟲.

JavaScript

scraperjs - 基於JS的一個功能齊全的網路爬蟲.
scrape-it - 基於Node.js的網路爬蟲.
simplecrawler - 基於事件驅動開發的網路爬蟲.
node-crawler - 提供簡單API，適於二次開發的網路爬蟲.
js-crawler - 基於Node.JS,支援HTTP(S)的網路爬蟲.
x-ray - 支援分頁的網路爬蟲.
node-osmosis - 基於Node.js適於解析HTML結構的網路爬蟲.

PHP

Goutte - 基於PHP的網頁截圖和爬取程式.
- laravel-goutte - 基於Laravel 5 的網路爬蟲.
dom-crawler - 易於抽取DOM檔案的網路爬蟲.
pspider - 基於PHP的併發網路爬蟲.
php-spider - 一個基於PHP的高可擴充套件的網路爬蟲.

C++

open-source-search-engine - 基於C/C++開發的網路爬蟲和搜尋引擎.

C

httrack - 全部網站整體複製工具。 ## Ruby
upton - 一個易於上手的爬蟲框架集合，支援CSS選擇器.
wombat - 基於Ruby天然的支援DSL的網路爬蟲，易於提取網頁正文資料.
RubyRetriever - 基於Ruby的網站資料採集和全網資料收割機.
Spidr - 全站資料採集，支援無限的網站連結地址採集.
Cobweb - 非常靈活，易於擴充套件的網路爬蟲，可以單點部署使用.
mechanize - 自動採集網站資料的框架.

R

rvest - 基於R開發的簡單網路爬蟲.

Erlang

ebot - 一個分散式，高可擴充套件的網路爬蟲.

Perl

web-scraper - 方便使用HTML、CSS、XPath選擇器的網路爬蟲。

Go

pholcus - 一個分散式，支援高併發的網路爬蟲.
gocrawl - 一個高併發的，輕量級，遵守道德的網路爬蟲.
fetchbot -一個遵守robots.txt規則和延遲規則的輕量級網路爬蟲.
go_spider - 一個非常好的高併發網路爬蟲.
dht -支援DHT協議的網路爬蟲.
ants-go - 基於Golang的高並行網路爬蟲.
scrape - 一個簡單的提供很好開發介面的網路爬蟲.

Scala

crawler - 基於Scala DSL的網路爬蟲.
scrala - 由Scala開發基於scrapy核心的網路爬蟲.
ferrit - 基於Scala開發使用了Akka, Spray，Cassandra的網路爬蟲.

分類: Java 好文要頂關注我收藏該文

SH-xuliang
關注 - 18
粉絲 - 21 +加關注 2 0 « 上一篇： Java 學習 day09
» 下一篇：測試用例編寫(功能測試框架)

	</div>

開源網路爬蟲彙總

Awesome-crawler-cn 網際網路爬蟲，蜘蛛，資料採集器，網頁解析器的彙總，因新技術不斷髮展，新框架層出不窮，此文會不斷更新... 交流討論歡迎推薦你知道的開源網路爬蟲，網頁抽取框架. 開源網路爬蟲QQ交流群:322

Net開源網路爬蟲Abot介紹

.Net中也有很多很多開源的爬蟲工具，abot就是其中之一。Abot是一個開源的.net爬蟲，速度快，易於使用和擴充套件。專案的地址是https://code.google.com/p/abot/ 對於爬取的Html，使用的分析工具是CsQuery, CsQuery可以算是.net中實現的Jquery,

網路爬蟲對對方伺服器造成的壓力到底有多大(彙總整理)

一些大型的網站都會有robot.txt，這算是與爬蟲者的一個協議。只要在robot.txt允許的範圍內爬蟲就不存在道德和法律風險，只不過實際上的爬蟲者一般都不看這個。控制採集速度。過快的採集會對網站伺服器造成不小的壓力，如果是效能差的小站可能就會被這麼搞垮了。因此放慢採

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

網路爬蟲原理（概要了解）

一、網路爬蟲原理 1.1 等同於瀏覽器訪問網頁的原理（1）真人行為驅動（2）瀏覽器自動執行人為的動作，即將動作自動程式化。 1.2 網路爬蟲就是將瀏覽器訪問網頁的過程，再次抽像成程式。二、網路爬蟲分類 2.1 按連結的訪問層次的先後來分寬度優先和深度優先。寬度優先

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

編寫第一個網路爬蟲

3 種爬取網站的常見方法：下載網頁首先需要把網頁下載下來，使用Python 的urllib 2 模組下載URL。不過這樣子的無法處理一些異常情況，如網頁不存在，可以加入異常處理機制。有時候伺服器過載返回503 Service Unavailable

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

【轉載儲存】Java丨jsoup網路爬蟲登入得到cookie並帶上cookie訪問

優秀文章:https://blog.csdn.net/wisdom_maxl/article/details/65631825 jsoup使用cookie： Set<Cookie> cookie_set = LoadCSDN.load(); // WebClient

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

學過網站設計的小夥伴們都知道網站通常都是分層進行設計的，最上層的是頂級域名，之後是子域名，子域名下又有子域名等等，同時，每個子域名可能還會擁有多個同級域名，而且URL之間可能還有相互連結，千姿百態，由此構成一個複雜的網路。當一個網站的URL非常多的時候，我們務必要設計好URL，否則在後期的理解

這可能是你見過的最全的網路爬蟲乾貨總結！抓緊時間收藏！

整個分享分為三個階段，第一階段先介紹了自己從大學以來從事程式設計開發以來的相關歷程，第二階段是正式的網路爬蟲分享流程，詳細總結了網路爬蟲開發的一些要點，第三階段是解答一些提問，並抽獎送出一些禮品。所以在這裡我會對我昨天分享的主要內容做下總結，另外還會附上視訊回放、PPT，另外還會為大家送上一些福利，

【網路爬蟲】：Python：url基礎：urllib

文章目錄 1 簡單介紹 2 相關區別 3 例項講解（1）urllib （2）ulrlib2 （3）httplib （4）requests 4 專案實戰 1 簡單介紹

搜片神器之DHT網路爬蟲的程式碼實現方法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

開源網路爬蟲彙總

交流討論

Python

Java

C#

JavaScript

PHP

C++

C

R

Erlang

Perl

Go

Scala

相關推薦