1. 程式人生 > >開源網路爬蟲彙總

開源網路爬蟲彙總

Awesome-crawler-cn

網際網路爬蟲,蜘蛛,資料採集器,網頁解析器的彙總,因新技術不斷髮展,新框架層出不窮,此文會不斷更新...

交流討論

  1. 歡迎推薦你知道的開源網路爬蟲,網頁抽取框架.
  2. 開源網路爬蟲QQ交流群:322937592
  3. email address: liinux at qq.com

Python

  • Scrapy - 一種高效的螢幕,網頁資料採集框架。
    • django-dynamic-scraper - 基於Scrapy核心由django Web框架開發的爬蟲。
    • Scrapy-Redis - 基於Scrapy核心採用Redis元件的爬蟲。
    • scrapy-cluster - 基於Scrapy核心採用Redis 和 Kafka 開發的分散式爬蟲框架。
    • distribute_crawler - 基於Scrapy核心採用redis, mongodb開發的分散式爬蟲框架。
  • pyspider - 一個強大純python的資料採集系統.
  • cola - 一個分散式的爬蟲框架.
  • Demiurge - 基於PyQuery的微型爬蟲框架.
  • Scrapely - 一個純python的HTML頁面捕捉庫.
  • feedparser - 一個通用的feed解析器.
  • you-get - 靜默網站爬去下載器.
  • Grab - 網站採集框架.
  • MechanicalSoup - 一個自動化的互動網站Python庫.
  • portia - 基於Scrapy的視覺化資料採集框架.
  • crawley - 基於非阻塞通訊(NIO)的python爬蟲框架.
  • RoboBrowser - 一個簡單的,不基於Web瀏覽器的基於Python的Web 瀏覽器.
  • MSpider - 一個基於gevent(協程網路庫)的python爬蟲.
  • brownant - 一個輕量級的網路資料抽取框架.

Java

  • Apache Nutch - 用於生產環境的高度可擴充套件的高度可擴充套件的網路爬蟲.
    • anthelion - 一個基於Apache Nutch抓取語義註釋在HTML頁面外掛.
  • Crawler4j - 簡單和輕量級的網路爬蟲.
  • JSoup - 採集,分析,處理和清洗HTML頁面.
  • websphinx - HTML網站特定的處理、資訊提取.
  • Open Search Server - 全套搜尋功能,建立你自己的索引策略。分析、提取全文資料,這個框架可以索引的一切.
  • Gecco - 一個易於使用的輕量級網路爬蟲.
  • WebCollector -簡單的抓取網頁的介面,可以在不到5分鐘內部署一個多執行緒的網路爬蟲.
  • Webmagic -一個可擴充套件的爬蟲框架.
  • Spiderman -一個可擴充套件的,多執行緒的網路爬蟲.
    • Spiderman2 - 分散式網路爬蟲框架,支援javascript渲染.
  • Heritrix3 - 可擴充套件,大規模的網路爬蟲專案.
  • SeimiCrawler - 一個敏捷的分散式爬蟲框架.
  • StormCrawler - 基於開放原始碼、構建低延遲的網路資源採集框架,基於Apache Storm.
  • Spark-Crawler - 基於Apache Nutch 的網路爬蟲,可以運行於Spark.

C#

  • ccrawler - 一個簡單的Web內容分類方案,它可以根據其內容分開網頁,基於C#3.5.
  • SimpleCrawler - 簡單的多執行緒網路爬蟲,基於REG表示式.
  • DotnetSpider - 基於C#開發的一個輕量級,交叉平臺的網路爬蟲.
  • Abot - 具有很好效率和可擴充套件性的C#網路爬蟲.
  • Hawk -  用 C#/WPF開發的網路爬蟲,具有簡單的ETL功能.
  • SkyScraper - 一個支援非同步網路和有很好擴充套件性的網路爬蟲.

JavaScript

  • scraperjs - 基於JS的一個功能齊全的網路爬蟲.
  • scrape-it - 基於Node.js的網路爬蟲.
  • simplecrawler - 基於事件驅動開發的網路爬蟲.
  • node-crawler - 提供簡單API,適於二次開發的網路爬蟲.
  • js-crawler - 基於Node.JS,支援HTTP(S)的網路爬蟲.
  • x-ray - 支援分頁的網路爬蟲.
  • node-osmosis - 基於Node.js適於解析HTML結構的網路爬蟲.

PHP

  • Goutte - 基於PHP的網頁截圖和爬取程式.
  • dom-crawler - 易於抽取DOM檔案的網路爬蟲.
  • pspider - 基於PHP的併發網路爬蟲.
  • php-spider - 一個基於PHP的高可擴充套件的網路爬蟲.

C++

C

  • httrack - 全部網站整體複製工具。 ## Ruby
  • upton - 一個易於上手的爬蟲框架集合,支援CSS選擇器.
  • wombat - 基於Ruby天然的支援DSL的網路爬蟲,易於提取網頁正文資料.
  • RubyRetriever - 基於Ruby的網站資料採集和全網資料收割機.
  • Spidr - 全站資料採集,支援無限的網站連結地址採集.
  • Cobweb - 非常靈活,易於擴充套件的網路爬蟲,可以單點部署使用.
  • mechanize - 自動採集網站資料的框架.

R

  • rvest - 基於R開發的簡單網路爬蟲.

Erlang

  • ebot - 一個分散式,高可擴充套件的網路爬蟲.

Perl

  • web-scraper - 方便使用HTML、CSS、XPath選擇器的網路爬蟲。

Go

  • pholcus - 一個分散式,支援高併發的網路爬蟲.
  • gocrawl - 一個高併發的,輕量級,遵守道德的網路爬蟲.
  • fetchbot -一個遵守robots.txt規則和延遲規則的輕量級網路爬蟲.
  • go_spider - 一個非常好的高併發網路爬蟲.
  • dht -支援DHT協議的網路爬蟲.
  • ants-go - 基於Golang的高並行網路爬蟲.
  • scrape - 一個簡單的提供很好開發介面的網路爬蟲.

Scala

  • crawler - 基於Scala DSL的網路爬蟲.
  • scrala - 由Scala開發基於scrapy核心的網路爬蟲.
  • ferrit - 基於Scala開發使用了Akka, Spray,Cassandra的網路爬蟲.
分類: Java 好文要頂 關注我 收藏該文 SH-xuliang
關注 - 18
粉絲 - 21 +加關注 2 0 « 上一篇: Java 學習 day09
» 下一篇: 測試用例編寫(功能測試框架)
	</div>