使用tornado實現簡單爬蟲

阿新 • • 發佈：2018-12-30

程式碼在官方文件的示例程式碼中有,但是作為一個tornado新手來說閱讀起來還是有點困難的,於是我在程式碼中添加了註釋,方便理解,程式碼如下:

# coding=utf-8
 #!/usr/bin/env python

import time
from datetime import timedelta

try:
    from HTMLParser import HTMLParser
    from urlparse import urljoin, urldefrag
except ImportError:
    from html.parser import HTMLParser
    from 
 urllib.parse import urljoin, urldefrag

from tornado import httpclient, gen, ioloop, queues

 # 設定要爬取的網址
base_url = 'http://www.baidu.com'
 # 設定worker數量
concurrency = 10
 # 此程式碼會獲取base_url下的所有其他url
@gen.coroutine
def get_links_from_url(url):

    try:
        # 通過異步向url發起請求
        response = yield httpclient.AsyncHTTPClient().fetch(url)
        print('fetched %s' 
 % url)
        # 響應如果是位元組型別 進行解碼
        html = response.body if isinstance(response.body, str) \
            else response.body.decode(errors='ignore')
        # 構建url列表
        urls = [urljoin(url, remove_fragment(new_url))
                for new_url in get_links(html)]
    except Exception as e:
        print('Exception: %s %s' 
 % (e, url))
        # 報錯返回空列表
        raise gen.Return([])
    # 返回url列表
    raise gen.Return(urls)


def remove_fragment(url):
    #去除錨點
    pure_url, frag = urldefrag(url)

    return pure_url


def get_links(html):
    #從html頁面裡提取url
    class URLSeeker(HTMLParser):
        def __init__(self):
            HTMLParser.__init__(self)
            self.urls = []

        def handle_starttag(self, tag, attrs):
            href = dict(attrs).get('href')
            if href and tag == 'a':
                self.urls.append(href)

    url_seeker = URLSeeker()
    url_seeker.feed(html)
    return url_seeker.urls


@gen.coroutine
def main():
    # 建立佇列
    q = queues.Queue()
    # 記錄開始時間戳
    start = time.time()
    # 構建兩個集合
    fetching, fetched = set(), set()

    @gen.coroutine
    def fetch_url():
        # 從佇列中取出資料
        current_url = yield q.get()
        try:
            # 如果取出的資料在佇列中已經存在  返回
            if current_url in fetching:
                return

            print('fetching %s' % current_url)
            # 如果不存在新增到集合當中
            fetching.add(current_url)
            # 從新放入的連結中繼續獲取連結
            urls = yield get_links_from_url(current_url)
            # 將已經請求玩的url放入第二個集合
            fetched.add(current_url)

            for new_url in urls:
                # Only follow links beneath the base URL
                # 如果連結是以傳入的url開始則放入佇列
                if new_url.startswith(base_url):
                    yield q.put(new_url)

        finally:
            # 佇列內資料減一
            q.task_done()

    @gen.coroutine
    def worker():
        while True:
            # 保證程式持續執行
            yield fetch_url()
    # 將第一個url放入佇列
    q.put(base_url)

    # Start workers, then wait for the work queue to be empty.
    for _ in range(concurrency):
        # 啟動對應數量的worker
        worker()
    # 等待佇列資料處理完成
    yield q.join(timeout=timedelta(seconds=300))
    # 如果兩個集合不相等丟擲異常
    assert fetching == fetched
    # 列印執行時間
    print('Done in %d seconds, fetched %s URLs.' % (
        time.time() - start, len(fetched)))


if __name__ == '__main__':
    io_loop = ioloop.IOLoop.current()
    io_loop.run_sync(main)

使用tornado實現簡單爬蟲

程式碼在官方文件的示例程式碼中有,但是作為一個tornado新手來說閱讀起來還是有點困難的,於是我在程式碼中添加了註釋,方便理解,程式碼如下: # coding=utf-8 #!/usr/bin/env python import time from da

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Node實現簡單爬蟲

1、新建一個專案新建一個資料夾安裝依賴 cnpm i --save PACKAGE_NAME 寫應用邏輯 2、核心邏輯實現爬蟲需要用到三個依賴，分別是express、superagent、cheerio superagent是個http方面的庫，可以發

使用php實現簡單爬蟲（一種通用的爬蟲思想）

概述現在爬蟲技術算是一個普遍的技術了，各個語言的爬蟲百家爭鳴，但是根據筆者自己的感覺還是python是主流。爬蟲涉及到太多的東西，筆者並不是專業的爬蟲工程師，只不過個人興趣分享一下。由於筆者是php工作，所以就使用php來進行簡單爬蟲。不過我的方法應該是很通用的，我相信java，

通過scrapy實現簡單爬蟲

Scrapy概述網路爬蟲，大概很多人都聽說過吧。它是通過一定的規則，自動抓取網際網路網站上的文章、資訊、圖片等等內容。常見的應用就是搜尋引擎。而Scrapy則是實現網路爬蟲的方式之一。官方描述的Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可

爬蟲系統基礎框架 & 何時使用爬蟲框架？& requests庫 + bs4來實現簡單爬蟲

www ica try 藍色 scrapy 定時調度器 find use 轉載請註明出處https://www.jianshu.com/p/88f920936edc，謝謝! 一、爬蟲用途和本質：網絡爬蟲顧名思義即模仿???在網絡上爬取數據，網絡爬蟲的本質是一段自動抓

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

php 實現簡單爬蟲

大部分是由他人部落格轉載而來, 只是根據目前自己的情況進行了部分修改. <?php /** * 爬蟲程式 -- 原型 * * 從給定的url獲取html內容 * * @param string $url * @return string */

Java實現簡單爬蟲爬取天氣預報

爬蟲爬取網頁的主要流程是： 1.向目標網頁發起請求； 2.對於獲取到的html檔案進行解析； 3.對解析後的資料進行儲存。本次主要是爬取全國城市未來7天的天氣預報，爬取物件為中國天氣網，爬取的資料存入文字中。對於html檔案的解析採用Jsoup結合正則表示式。地區程

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

wswp中的程式碼是通過python2的語法來寫的，在學習的過程中個人比較喜歡python3，因此準備將wswp的示例程式碼用python3重寫一遍，以加深映像。開始嘗試構建爬蟲識別網站所用技術和網站所有者構建網站所使用的技術型別的識別和尋找

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

5行python代碼實現簡單的網絡爬蟲

結果 auto itl max nbsp gitbook 代碼實現 roc 分享圖片 1、python代碼如下圖，我們從http://gitbook.cn/這網站中爬取數據。2、運行上圖代碼之前要下載安裝好chardet和requests安裝包，可以在我的博客裏免費下載這兩

簡單實現nodejs爬蟲工具

headers 被拒絕被拒 jee windows agent 網頁模塊 require 約30行代碼實現一個簡單nodejs爬蟲工具，定時抓取網頁數據。使用npm模塊 request---簡單http請求客戶端。（輕量級） fs---nodejs文件模塊。

matlab學習 — 實現簡單的爬蟲

mage data- imwrite read dai div 小寫 ranking 解析　　這裏復雜的情況暫時不考慮。。測試網址為pixiv的每日排行榜 = = url = ‘https://www.pixiv.net/ranking.php?mode=daily

Golang 簡單爬蟲實現，爬取小說

為什麼要使用Go寫爬蟲呢？對於我而言，這僅僅是練習Golang的一種方式。所以，我沒有使用爬蟲框架，雖然其很高效。為什麼我要寫這篇文章？將我在寫爬蟲時找到資料做一個總結，希望對於想使用Golang寫爬蟲的你能有一些幫助。爬蟲主要需要解決兩個問題：獲取網頁解析網頁如果這

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

使用tornado實現簡單爬蟲

程式碼在官方文件的示例程式碼中有,但是作為一個tornado新手來說閱讀起來還是有點困難的,於是我在程式碼中添加了註釋,方便理解,程式碼如下:

相關推薦