python爬蟲-爬取盜墓筆記

本來今天要繼續更新scrapy爬取美女圖片系列文章，可是發現使用免費的代理ip都非常不穩定，有時候連線上，有時候連線不上，所以我想找到穩定的代理ip，下次再更新 scrapy爬取美女圖片之應對反爬蟲文章。

好了，廢話不多說，咱們進入今天的主題。這一篇文章是關於爬取盜墓筆記，主要技術要點是scrapy的使用，scrapy框架中使用mongodb資料庫，檔案的儲存。

　　　這次爬取的網址是 http://seputu.com/。之前也經常在上面線上看盜墓筆記。

　　按照咱們之前的學習爬蟲的做法，使用firebug審查元素，檢視如何解析html。

這次咱們要把書的名稱，章節，章節名稱，章節連結抽取出來，儲存到資料庫中，同時將文章的內容提取出來存成txt檔案。

　　　看一下html結構就會發現這個頁面結構非常分明，標題的html節點是 div class = ''mulu-title"，章節的節點是div class= "box"，每一章的節點是 div class= "box"中的<li>標籤。

然後咱們將第一章的連結 http://seputu.com/biji1/1.html開啟，上面就是文章的內容。

　　　可以看到文章的內容是使用div class ="content-body"

中的<p>標籤包裹起來的，總體來說提取難度挺小。

開啟cmd，輸入scrapy startproject daomubiji,這時候會生成一個工程，然後我把整個工程複製到pycharm中

上圖就是工程的結構。

DaomubijiSpider.py ------Spider 蜘蛛

items.py -----------------對要爬取資料的模型定義

pipelines.py-------------處理要儲存的資料(存到資料庫和寫到檔案)

settings.py----------------對Scrapy的配置

main.py -------------------啟動爬蟲

test.py -------------------- 測試程式(不參與整體執行)

下面將解析和儲存的程式碼貼一下，完整程式碼已上傳到github：https://github.com/qiyeboy/daomuSpider。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

DaomubijiSpider.py
 (解析html)

#coding:utf-8 importscrapy fromscrapy.selectorimportSelector from


              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    python爬蟲-爬取盜墓筆記
      
								
								            
						
                

      本來今天要繼續更新scrapy爬取美女圖片系列文章，可是發現使用免費的代理ip都非常不穩定，有時候連線上，有時候連線不上，所以我想找到穩定的代理ip，下次再更新
  scrap 

  
 

    

    
    Python爬蟲-爬取糗事百科段子
      hasattr   com   ima   .net   header   rfi   star   reason   images   閑來無事，學學python爬蟲。
在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。
1.獲取糗事百科url
http://www.qiu 

  
 

    

    
    python爬蟲爬取頁面源碼在本頁面展示
      一個   nts   ring   想要   strip   code   空白   列表   ngs   python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架
首先定義一個變量html，變量值為一段HTML代碼


>& 

  
 

    

    
    python 爬蟲爬取 證券之星網站
      爬蟲   周末無聊，找點樂子。。。#coding:utf-8
import requests
from bs4 import BeautifulSoup
import random
import time

#抓取所需內容
user_agent = ["Mozilla/5.0 (Windows NT 10.0 

  
 

    

    
    python爬蟲爬取海量病毒文件
      tle   format   nbsp   contex   logs   request   spl   tde   __name__   因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。

# -*- coding: utf-8 -*-
import requests
import re
 

  
 

    

    
    用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）
      enc   用途   css選擇器   狀態   csv文件   表格   area   加密   重要   用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）
在進行爬取前，首先要了解：
1、什麽是CSS選擇器？
每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code 

  
 

    

    
    python爬蟲——爬取古詩詞
      爬蟲   古詩詞   實現目標    1.古詩詞網站爬取唐詩宋詞    2.落地到本地數據庫頁面分析    通過firedebug進行頁面定位：            源碼定位：    根據lxml etree定位div標簽：# 通過 lxml進行頁面分析
response = etree.HTML(data 

  
 

    

    
    利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程
      實戰   趨勢   fat   sts   AI   top   名稱   2萬   安裝模塊   
 
項目內容
本案例選擇>> 商品類目：沙發；
數量：共100頁  4400個商品；
篩選條件：天貓、銷量從高到低、價格500元以上。

項目目的
1. 對商品標題進行文本分析 詞雲可視化
2.  

  
 

    

    
    Python爬蟲 - 爬取百度html代碼前200行
      http   src   mage   bsp   bubuko   str   百度   爬蟲   圖片   Python爬蟲 - 爬取百度html代碼前200行 - 改進版,  增加了對字符串的.strip()處理
Python爬蟲 - 爬取百度html代碼前200行 

  
 

    

    
    簡易python爬蟲爬取boss直聘職位，並寫入excel
      python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat 

  
 

    

    
    Python 爬蟲爬取微信文章
      微信爬蟲   爬取微信文章    爬取公眾號文章搜狗微信平臺為入口 地址：http://weixin.sogou.com/ --------------------------------------------------------------搜索關鍵詞“科技”對比網址變化情況查看網址http://wei 

  
 

    

    
    python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！
      運維開發   網絡   分析   matplot   容易   jieba   編程語言   提示框   然而   Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且 

  
 

    

    
    Python爬蟲爬取OA幸運飛艇平臺獲取數據
      sta   獲取數據   status   fail   attrs   color   wrapper   排行榜   req   安裝BeautifulSoup以及requests
打開window 的cmd窗口輸入命令pip install requests 執行安裝，等待他安裝完成就可以了
Beaut 

  
 

    

    
    利用python爬蟲爬取圖片並且制作馬賽克拼圖
      python爬蟲   splay   ise   做事   c-c   sea   mage   item   -a   　　想在妹子生日送妹子一張用零食（或者食物類好看的圖片）拼成的馬賽克拼圖，因此探索了一番= =。
　　首先需要一個軟件來制作馬賽克拼圖，這裏使用Foto-Mosaik-Edda（網上也有在 

  
 

    

    
    Python - 爬蟲爬取和登陸github
       
 
 用API搜尋GitHub中star數最多的前十個庫，並用post方法登陸並點選收藏 
 
 一 用API搜尋GitHub中star數最多的前十個庫 
 利用GitHub提供的API爬取前十個star數量最多的Python庫 
     GitHub提供了很多專門為爬蟲準 

  
 

    

    
    用Python爬蟲爬取豆瓣電影、讀書Top250並排序
       
 
  
  
 更新：已更新豆瓣電影Top250的指令碼及網站 
 概述 
 經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To 

  
 

    

    
    Python爬蟲—爬取小說名著
       
 
 週末閒來無事，本來想看一看書的，結果也沒看進去(RNG輸的我真是糟心。。。) 
 於是就用python寫了一個爬蟲，來爬取小說來看，防止下次還要去網上找書看。 
 我們先找一個看名著的小說網 
 我們開啟http://www.mingzhuxiaoshuo.com/ 名著小說網來，首先看到 

  
 

    

    
    ★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）
       
 
 
  本篇文章所包含的主要內容：  
 
   使用requests模組實現對網頁以字串的形式儲存  
   使用open()、write()、close()函式實現檔案的開啟與寫入  
   使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式  
 
 &n 

  
 

    

    
    python爬蟲爬取代理ip
       
 
 
   
 最近想玩玩代理IP的刷東西怎麼實現的，所以來試試（生計所迫） 
 
 這個是西刺免費代理IP http://www.xicidaili.com/ 
 不能保證都能用，所以爬取下來需要檢驗，用爬取的代理ip訪問網站，看狀態碼，是200就證明能用 
 儲存到MongoDB 

  
 

    

    
    python爬蟲爬取新浪新聞的評論數以及部分評論
       
 
 首先應該去找到評論數所對應的網頁元素：
 
 可以大致猜測，這裡是用JavaScript·去計算評論數量的。
 重新整理頁面，去觀測頁面的js部分，有沒有對應的連結，仔細檢視：
 
 找到之後，點選Preview，看到內部結構：
 
 可以看出count部分，total代表了參與人數，show欄位代 

  

            

          
        
      
    
    
  
    搜尋
    
        
      
      
    
  
 
  
  
    基礎教學
     
    Mysql入門  
     Sql入門 
      Android入門 
       Docker入門 
        Go語言入門 
         Ruby程式入門 
          Python入門 
           Python進階 
            Django入門 
             Python爬蟲入門 
             
      
      
  
   
  
    最近訪問
    
  	      
  
      
    
  

 

 


  
    
      
        
          首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典
        
          Copyright © 2002-2020  程式人生 796T.COM All rights reserved.