新浪網分類資訊爬蟲

阿新 • • 發佈：2018-01-22

call 中間 apple long 每次 als 切換 gif and

從GitHub得到完整項目（https://github.com/daleyzou/sinainfo.git）

1、簡介

爬取新浪網導航頁所有下所有大類、小類、小類裏的子鏈接，以及子鏈接頁面的新聞內容。

效果演示圖：

技術分享圖片

2、代碼

items.py

  1 import scrapy
  2 
  3 
  4 class SinainfoItem(scrapy.Item):
  5     # 大類的標題和url
  6     parentTitle = scrapy.Field()
  7     parentUrls = scrapy.Field()
  8 
  9     # 小類的標題和子url 

 10     subTitle = scrapy.Field()
 11     subUrls = scrapy.Field()
 12 
 13     # 小類目錄存儲路徑
 14     subFilename = scrapy.Field()
 15 
 16     # 小類下的子鏈接
 17     sonUrls = scrapy.Field()
 18 
 19     # 大文章標題和內容
 20     head = scrapy.Field()
 21     content = scrapy.Field()

spiders/sina.py(爬蟲)

  1 # -*- coding: utf-8 -*- 

  2 import scrapy
  3 import sys
  4 import os
  5 
  6 # noinspection PyUnresolvedReferences
  7 from sinainfo.items import SinainfoItem
  8 
  9 reload(sys)
 10 sys.setdefaultencoding(‘utf-8‘)
 11 
 12 
 13 class SinaSpider(scrapy.Spider):
 14     name = ‘sina‘
 15     allowed_domains = [‘sina.com.cn‘]
 16 
     start_urls = [‘http://news.sina.com.cn/guide/‘]
 17 
 18     def parse(self, response):
 19         items = []
 20         # 所有大類的標題和url
 21         parentTitle = response.xpath("//div[@id=‘tab01‘]/div/h3/a/text()").extract()
 22         parentUrls = response.xpath(‘//div[@id="tab01"]/div/h3/a/@href‘).extract()
 23 
 24         # 所有小類的ur 和 標題
 25         subUrls = response.xpath(‘//div[@id="tab01"]/div/ul/li/a/@href‘).extract()
 26         subTitle = response.xpath(‘//div[@id="tab01"]/div/ul/li/a/text()‘).extract()
 27 
 28         # 爬取所有大類
 29         for i in range(0, len(parentTitle)):
 30             # 指定大類目錄的路徑和目錄名
 31             parentFilename = "./Data/" + parentTitle[i]
 32             # 如果目錄不存在，則創建目錄
 33             if (not os.path.exists(parentFilename)):
 34                 os.makedirs(parentFilename)
 35 
 36             # 爬取所有小類
 37             for j in range(0, len(subUrls)):
 38                 item = SinainfoItem()
 39                 # 保存大類的title和urls
 40                 item[‘parentTitle‘] = parentTitle[i]
 41                 item[‘parentUrls‘] = parentUrls[i]
 42                 # 檢查小類的url是否以同類別大類url開頭，如果是返回Ture
 43                 if_belong = subUrls[j].startswith(item[‘parentUrls‘])
 44                 # 如果屬於本大類，將存儲目錄放在本大類下
 45                 if (if_belong):
 46                     subFilename = parentFilename + ‘/‘ + subTitle[j]
 47                     # 如果目錄不存在，則創建目錄
 48                     if (not os.path.exists(subFilename)):
 49                         os.makedirs(subFilename)
 50                     # 存儲 小類url、title、和filename字段數據
 51                     item[‘subUrls‘] = subUrls[j]
 52                     item[‘subTitle‘] = subTitle[j]
 53                     item[‘subFilename‘] = subFilename
 54                     items.append(item)
 55 
 56         # 發送每個小類url的Request請求，得到Response連同包含meta數據
 57                     # 一同交給回調函數second_parse()處理
 58         for item in items:
 59             yield scrapy.Request(url = item[‘subUrls‘], 60                                  meta={‘meta_1‘:item}, callback=self.second_parse)
 61 
 62     # 對於返回的小類url，在進行遞歸請求
 63     def second_parse(self, response):
 64         # 提取每次Response的meta數據
 65         meta_1 = response.meta[‘meta_1‘]
 66         # 取出小類裏所有字鏈接
 67         sonUrls = response.xpath(‘//a/@href‘).extract()
 68 
 69         items = []
 70         for i in range(0, len(sonUrls)):
 71             # 檢查每個鏈接是否以大類url開頭、以.shtml結尾，如果是返回True
 72             if_belong = sonUrls[i].endswith(‘.shtml‘) and sonUrls[i].startswith( 73                 meta_1[‘parentUrls‘])
 74             # 如果屬於本大類，獲取字段值放在同一個item下便於傳輸
 75             if (if_belong):
 76                 item = SinainfoItem()
 77                 item[‘parentTitle‘] = meta_1[‘parentTitle‘]
 78                 item[‘parentUrls‘] = meta_1[‘parentUrls‘]
 79                 item[‘subTitle‘] = meta_1[‘subTitle‘]
 80                 item[‘subUrls‘] = meta_1[‘subUrls‘]
 81                 item[‘subFilename‘] = meta_1[‘subFilename‘]
 82                 item[‘sonUrls‘] = sonUrls[i]
 83                 items.append(item)
 84 
 85         for item in items:
 86             yield scrapy.Request(url = item[‘sonUrls‘], 87                                  meta = {‘meta_2‘:item}, callback=self.detail_parse)
 88 
 89     # 數據解析方法，獲取文章標題和內容
 90     def detail_parse(self, response):
 91         item = response.meta[‘meta_2‘]
 92         content = ""
 93         head = response.xpath(‘//h1[@id="main_title"]/text()‘)
 94         content_list = response.xpath(‘//div[@id="artibody"]/p/text()‘).extract()
 95         # 將p標簽裏的文本內容合並到一起
 96         for content_one in content_list:
 97             content += content_one
 98         item[‘head‘] = head
 99         item[‘content‘] = content

View Code

pipelines.py

  1 class SinainfoPipeline(object):
  2     def process_item(self, item, spider):
  3         sonUrls = item[‘sonUrls‘]
  4 
  5         # 文件名為子鏈接url中間部分，並將/替換為_,保存為.txt
  6         filename = sonUrls[7:-6].replace(‘/‘, ‘_‘)
  7         filename += ".txt"
  8 
  9         fp = open(item[‘subFilename‘]+‘/‘+filename, ‘w‘)
 10         fp.write(item[‘content‘])
 11         fp.close()
 12         return item

settings.py

  1 
  2 BOT_NAME = ‘sinainfo‘
  3 
  4 SPIDER_MODULES = [‘sinainfo.spiders‘]
  5 NEWSPIDER_MODULE = ‘sinainfo.spiders‘
  6 
  7 LOG_LEVEL = ‘DEBUG‘
  8 # Crawl responsibly by identifying yourself (and your website) on the user-agent
  9 USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36‘
 10 DOWNLOAD_DELAY = 3
 11 COOKIES_ENABLED = False
 12 
 13 ITEM_PIPELINES = {
 14    ‘sinainfo.pipelines.SinainfoPipeline‘: 300,
 15 }

3、運行

方法一：

（1）在項目根目錄下新建main.py文件,用於調試

from scrapy import cmdline
cmdline.execute(‘scrapy crawl sina‘.split())

（2）執行程序

py2 main.py

方法二：

在命令行下：

(1)切換到項目/sinainfo/sinainfo/spiders
(2)執行 scrapy crawl sina

新浪網分類資訊爬蟲

call 中間 apple long 每次 als 切換 gif and 從GitHub得到完整項目（https://github.com/daleyzou/sinainfo.git）1、簡介爬取新浪網導航頁所有下所有大類、小類、小類裏的子鏈接，以及子鏈接頁面的

【轉】寫一個簡單的爬蟲來批量爬取新浪網的新聞

工具：Anaconda 先進入該頁，新浪新聞：http://news.sina.com.cn/china/ 往下翻，找到這樣的最新訊息先爬取單個頁面的資訊：（隨便點一個進去），該新聞網址：http://news.sina.com.cn/c/nd/2018-06-08/doc-ihcscwxa1

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

4-15 爬取新浪網

xlsx size text num mos das rip bs4 page import requests 3 from bs4 import BeautifulSoup 4 from datetime import datetime 5 import re 6

帝國cms仿53貨源網分類資訊導航網站模板帶會員中心

該原始碼在a1模板站售價500元，本來是買來測試的最終沒有真正去運營這樣一個網站，會員免費下載。帝國CMS7.2網店貨源資訊程式，本程式由七個系統模型組成，後臺非常安全強大，做網店貨源資訊網必選程式。安裝方法：將檔案放入站點根目錄，瀏覽器輸入http：//你的域名/e/in

新浪微博資訊採集釋出教程

本文主要介紹“新浪微博採集爬蟲”（以下簡稱“微博爬蟲”）的使用教程以及注意事項。新浪微博中有大量高價值的軟文資料，應用價值很高，接下來，給你詳細說明用“微博爬蟲”採集並匯出資料的步驟：步驟1 設定爬蟲進入“微博爬蟲”總覽頁，點選“應用設定”，您可以選擇“檔案託管”服務託管圖

【爬蟲初探】新浪微博搜尋爬蟲實現

全文概述功能：爬取新浪微博的搜尋結果,支援高階搜尋中對搜尋時間的限定網址：http://s.weibo.com/ 實現：採取selenium測試工具，模擬微博登入，結合PhantomJS/Firefox，分析DOM節點後，採用Xpath對節點資訊進行獲

Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類

一前言拉普拉斯平滑垃圾郵件過濾新浪新聞分類二樸素貝葉斯改進之拉普拉斯平滑上篇文章提到過，演算法存在一定的問題，需要進行改進。那麼需要改進的地方在哪裡呢？利用貝葉斯分類器對文件進行分類時，要計算多個概率的乘積以獲得

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

新浪微博評論爬蟲小DEMO

微博模擬登陸（使用者手動輸入）：（1） POST代理（2） COOKIE登陸 http://www.cnblogs.com/EmilySun/p/6158147.html Chrome瀏覽器開啟m.weibo.cn，右鍵點選檢查-> Netwo

【HttpClient4.5實訓】一.HttpClient4.5模擬瀏覽器GET請求訪問新浪網（非原文教程）

更多HttpClient4.5教程請訪問點選開啟連結 ===================================================================== 問題：

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一、前言上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容：拉普拉

樸素貝葉斯實戰篇之新浪新聞分類

Python版本： Python3.x 作者：崔家華執行平臺： Windows 編輯：黃俊嘉 IDE： Sublime text3 一、前言上篇文章Python3《機器學習實戰》學習筆記（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的

新浪微博粉絲爬蟲-wap站只能爬取20頁-

由上圖可見：微博已經視粉絲分佈為商業機密，故爬取難度越來越大。無論web上爬，還是手機上爬，均受限。兩種方式：手動爬+微博API爬。本文展示手動爬，以李易峰的粉絲分佈為基礎，只能爬取20頁，原始碼如下 # encoding=utf-8 import random i

抓取新浪網的標題

剛想開始入手的時候，想著爬今日頭條來的，但是看它那麼難，就往後放了放，一直在跟前輩們溝通，但是中間也不能閒下來呀，所以，就穿插著又爬了一下新浪網的新聞，這個就比較簡單了，直接檢視網頁原始碼就可以找到他的資訊，那接下來就直接上程式碼就可以了噻~# coding=utf-8 i

新浪微博粉絲——爬蟲漲粉技巧

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

【Python】【爬蟲】爬取網易、騰訊、新浪、搜狐新聞到本地

這個實驗主要爬取新聞網站首頁的新聞內容儲存到本地，爬取內容有標題、時間、來源、評論數和正文。工具：python 3.6 谷歌瀏覽器爬取過程：一、安裝庫：urllib、requests、BeautifulSoup 1、urllib庫：Urlli

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

新浪網分類資訊爬蟲

從GitHub得到完整項目（https://github.com/daleyzou/sinainfo.git）

1、簡介

2、代碼

items.py

spiders/sina.py(爬蟲)

pipelines.py

settings.py

3、運行

方法一：

（1）在項目根目錄下新建main.py文件,用於調試

（2）執行程序

方法二：

相關推薦