爬蟲實戰（整站爬蟲新浪新聞，並按照遞迴路徑儲存在本地）

阿新 • • 發佈：2019-02-18

新浪網分類資訊爬蟲

爬取新浪網導航頁所有下所有大類、小類、小類裡的子連結，以及子連結頁面的新聞內容。

效果演示圖：

items.py

import scrapy
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinaItem(scrapy.Item):
    # 大類的標題 和 url
    parentTitle = scrapy.Field()
    parentUrls = scrapy.Field()

    # 小類的標題 和 子url
    subTitle = scrapy.Field()
    subUrls = scrapy.Field()

    # 小類目錄儲存路徑 

    subFilename = scrapy.Field()

    # 小類下的子連結
    sonUrls = scrapy.Field()

    # 文章標題和內容
    head = scrapy.Field()
    content = scrapy.Field()

spiders/sina.py

# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-

from Sina.items import SinaItem
import scrapy
import os

import sys
reload(sys)
sys.setdefaultencoding("utf-8" 
)


class SinaSpider(scrapy.Spider):
    name= "sina"
    allowed_domains= ["sina.com.cn"]
    start_urls= [
       "http://news.sina.com.cn/guide/"
    ]

    def parse(self, response):
        items= []
        # 所有大類的url 和 標題
        parentUrls = response.xpath('//div[@id=\"tab01\"]/div/h3/a/@href').extract()
        parentTitle = response.xpath("//div[@id=\"tab01\"]/div/h3/a/text()" 
).extract()

        # 所有小類的ur 和 標題
        subUrls  = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/@href').extract()
        subTitle = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/text()').extract()

        #爬取所有大類
        for i in range(0, len(parentTitle)):
            # 指定大類目錄的路徑和目錄名
            parentFilename = "./Data/" + parentTitle[i]

            #如果目錄不存在，則建立目錄
            if(not os.path.exists(parentFilename)):
                os.makedirs(parentFilename)

            # 爬取所有小類
            for j in range(0, len(subUrls)):
                item = SinaItem()

                # 儲存大類的title和urls
                item['parentTitle'] = parentTitle[i]
                item['parentUrls'] = parentUrls[i]

                # 檢查小類的url是否以同類別大類url開頭，如果是返回True (sports.sina.com.cn 和 sports.sina.com.cn/nba)
                if_belong = subUrls[j].startswith(item['parentUrls'])

                # 如果屬於本大類，將儲存目錄放在本大類目錄下
                if(if_belong):
                    subFilename =parentFilename + '/'+ subTitle[j]
                    # 如果目錄不存在，則建立目錄
                    if(not os.path.exists(subFilename)):
                        os.makedirs(subFilename)

                    # 儲存 小類url、title和filename欄位資料
                    item['subUrls'] = subUrls[j]
                    item['subTitle'] =subTitle[j]
                    item['subFilename'] = subFilename

                    items.append(item)

        #傳送每個小類url的Request請求，得到Response連同包含meta資料 一同交給回撥函式 second_parse 方法處理
        for item in items:
            yield scrapy.Request( url = item['subUrls'], meta={'meta_1': item}, callback=self.second_parse)

    #對於返回的小類的url，再進行遞迴請求
    def second_parse(self, response):
        # 提取每次Response的meta資料
        meta_1= response.meta['meta_1']

        # 取出小類裡所有子連結
        sonUrls = response.xpath('//a/@href').extract()

        items= []
        for i in range(0, len(sonUrls)):
            # 檢查每個連結是否以大類url開頭、以.shtml結尾，如果是返回True
            if_belong = sonUrls[i].endswith('.shtml') and sonUrls[i].startswith(meta_1['parentUrls'])

            # 如果屬於本大類，獲取欄位值放在同一個item下便於傳輸
            if(if_belong):
                item = SinaItem()
                item['parentTitle'] =meta_1['parentTitle']
                item['parentUrls'] =meta_1['parentUrls']
                item['subUrls'] = meta_1['subUrls']
                item['subTitle'] = meta_1['subTitle']
                item['subFilename'] = meta_1['subFilename']
                item['sonUrls'] = sonUrls[i]
                items.append(item)

        #傳送每個小類下子連結url的Request請求，得到Response後連同包含meta資料 一同交給回撥函式 detail_parse 方法處理
        for item in items:
                yield scrapy.Request(url=item['sonUrls'], meta={'meta_2':item}, callback = self.detail_parse)

    # 資料解析方法，獲取文章標題和內容
    def detail_parse(self, response):
        item = response.meta['meta_2']
        content = ""
        head = response.xpath('//h1[@id=\"main_title\"]/text()')
        content_list = response.xpath('//div[@id=\"artibody\"]/p/text()').extract()

        # 將p標籤裡的文字內容合併到一起
        for content_one in content_list:
            content += content_one

        item['head']= head
        item['content']= content

        yield item

pipelines.py

from scrapy import signals
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinaPipeline(object):
    def process_item(self, item, spider):
        sonUrls = item['sonUrls']

        # 檔名為子連結url中間部分，並將 / 替換為 _，儲存為 .txt格式
        filename = sonUrls[7:-6].replace('/','_')
        filename += ".txt"

        fp = open(item['subFilename']+'/'+filename, 'w')
        fp.write(item['content'])
        fp.close()

        return item

settings.py

BOT_NAME = 'Sina'

SPIDER_MODULES = ['Sina.spiders']
NEWSPIDER_MODULE = 'Sina.spiders'

ITEM_PIPELINES = {
    'Sina.pipelines.SinaPipeline': 300,
}

LOG_LEVEL = 'DEBUG'

在專案根目錄下新建main.py檔案,用於除錯

from scrapy import cmdline
cmdline.execute('scrapy crawl sina'.split())

執行程式

py2 main.py

爬蟲實戰（整站爬蟲新浪新聞，並按照遞迴路徑儲存在本地）

新浪網分類資訊爬蟲爬取新浪網導航頁所有下所有大類、小類、小類裡的子連結，以及子連結頁面的新聞內容。效果演示圖： items.py import scrapy import sys reload(sys) sys.setdefaultencoding("utf-8"

smarty 精確到小數點後2位（時間分鐘按小數表示，並精確到小數點後兩位）

<td>{#math equation="MinutesNum" MinutesNum=$packet_set_array[Item].MinutesNum|default:'0'/60 format="%

Python爬蟲開發（二）：整站爬蟲與Web挖掘

0×00 介紹在網際網路這個複雜的環境中，搜尋引擎本身的爬蟲，出於個人目的的爬蟲，商業爬蟲肆意橫行，肆意掠奪網上的或者公共或者私人的資源。顯然資料的收集並不是為所欲為，有一些協議或者原則還是需要每一個人注意。本文主要介紹關於爬蟲的一些理論和約定協議，然後相對完整完成一個爬蟲的基本功能。本

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

Python爬蟲實戰--CSDN部落格爬蟲（附贈瀏覽量小工具）

前言：哈哈，繼續高興一下，通過自己的小手段，讓部落格訪問量過萬啦~怎麼做到的呢？大家想一想我們近來所學的爬蟲知識，養兵千日用兵一時，在前面的學習，我們已經可以很輕鬆的爬去一些中小型和大型網站了，現在我們一起來思考一下，我們該怎麼去爬蟲CSDN網站，並順便提高一下我們部落格的瀏覽量呢？問

python爬蟲實戰（一）

看了網上好多人寫的爬蟲，架構風格都不是很喜歡，前幾天在GitHub上翻到一個專案，主要是結構特別好，那種面向物件的風格很受我的喜歡，今天按照這種方式寫了兩個爬蟲分享給大家廢話不多說，直接上程式碼一.利用requests,BeautifulSoup庫爬

Python3爬蟲實戰（requests模組）

上次我通過兩個實戰教學展示瞭如何使用urllib模組（http://blog.csdn.net/mr_blued/article/details/79180017）來構造爬蟲，這次告訴大家一個更好的實現爬蟲的模組，requests模組。使用requests模組進行爬蟲構造時最

Python3爬蟲實戰（urllib模組）

import urllib.request import os import re import time def url_open(url): # 建立一個 Request物件 req req = urllib.request.Request(url) # 通過 add_head

Python3.X 爬蟲實戰（動態頁面爬取解析）

1 背景不知不覺關於 Python 3.X 爬蟲系列已經介紹瞭如下系列：到此關於 Python3.x 靜態頁面爬蟲的基礎核心基本已經介紹的差不多了，剩下的就是一些自己個性化的需求了，譬如爬取資料分析等，這種我們後面還會專門來說的。然而我們在該

python3爬蟲實戰（三）：mitmproxy對接python下載抖音小視訊

一、前言前面我們已經用appium爬取了微信朋友圈，今天我們學習下mitmproxy，mitmproxy是幹什麼的呢，它跟charles和fiddler類似，是一個抓包工具，以控制檯的形式顯示，mitmproxy的重要性在於它可以對接python,可

python爬蟲實戰（四）：selenium爬蟲抓取阿里巴巴採購批發商品

一、前言二、學習資料（感謝分享）三、開始爬取 1、先分析目標網址，為什麼選擇selenium 在搜尋中輸入女裝，用F12檢視原始碼，看看網頁顯示的內容是不是Ajax。點選Network，選擇下面的XHR，按F5重新整理頁面，下

爬蟲實戰 -- （爬取證券期貨市場失信記錄平臺）

這裡我們要通過實際展示爬取證券期貨市場失信記錄平臺上的搜尋資料。我們現在要通過爬蟲給定一個姓名,機構程式碼，爬取獲得的結果。這裡主要說明兩點： 1. 這是一個動態網頁，因此我採用 selenium 方法。 2.這裡的驗證碼圖片並不在原始碼內，因此前面的

python爬蟲實戰（關於工作中遇到的問題）

主要是說一下大體的思路，在爬蟲網站的時候遇到樂一些困難，最後解決。需要爬蟲的網站：http://www.jisilu.cn/ 在這個網站中，需要對實時投資資料進行爬取，涉及到四個頁面分級A、分級B、母基金、分級套利。主要是採集表格中的資料：

前程無憂爬蟲實戰（通過輸入關鍵字爬取任意職位並自動儲存為.csv文字）

![0e644a1fa9dc00c3e7c752bdf4382aa2.jpg](https://upload-images.jianshu.io/upload_images/9136378-72ab92577ff68f7d.jpg?imageMogr2/auto-orient/strip%7Ci

拉勾爬蟲實戰（通過輸入關鍵字爬取任意職位並自動儲存為.csv文字）

![178bc26d6a28e9f177010e9150d849f2.jpg](https://upload-images.jianshu.io/upload_images/9136378-068a8b1de5a0204f.jpg?imageMogr2/auto-orient/

python2.7爬蟲實戰（房地產資訊抓取）

import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import MySQLdb import urllib2 import re from bs4 import BeautifulSoup #可改成函式這裡就懶的寫了 for i in ra

Python3.X 爬蟲實戰（併發爬取）

1 背景在這一系列開始前我們就說過，簡單的爬蟲很容易，但是要完成一個高效健壯的爬蟲不是一個簡單的事情，這一系列我們已經明白了爬蟲相關的如下核心知識點。基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了（譬如老闆讓你定期留意觀

Python爬蟲實戰--（二）解析網頁中的元素

使用requests傳送請求首先匯入requests庫和beautifulsoup庫 import requests from bs4 import BeautifulSoup 呼叫requests.get()方法獲得指定url的res

爬蟲實戰（整站爬蟲新浪新聞，並按照遞迴路徑儲存在本地）

新浪網分類資訊爬蟲

items.py

spiders/sina.py

pipelines.py

settings.py

在專案根目錄下新建main.py檔案,用於除錯

執行程式

相關推薦