1. 程式人生 > >python爬蟲-爬取盜墓筆記

python爬蟲-爬取盜墓筆記



      本來今天要繼續更新scrapy爬取美女圖片系列文章,可是發現使用免費的代理ip都非常不穩定,有時候連線上,有時候連線不上,所以我想找到穩定的代理ip,下次再更新  scrapy爬取美女圖片之應對反爬蟲 文章。

      好了,廢話不多說,咱們進入今天的主題。這一篇文章是關於爬取盜墓筆記,主要技術要點是scrapy的使用,scrapy框架中使用mongodb資料庫檔案的儲存

   這次爬取的網址是  http://seputu.com/。之前也經常在上面線上看盜墓筆記。

    按照咱們之前的學習爬蟲的做法,使用firebug審查元素,檢視如何解析html。

       這次咱們要把書的名稱,章節,章節名稱,章節連結抽取出來,儲存到資料庫中,同時將文章的內容提取出來存成txt檔案

   看一下html結構就會發現這個頁面結構非常分明,標題的html節點是  div class = ''mulu-title",章節的節點是div class= "box",每一章的節點是 div class= "box"中的<li>標籤

        然後咱們將第一章的連結 http://seputu.com/biji1/1.html開啟,上面就是文章的內容。

   可以看到文章的內容是使用div class ="content-body"

中的<p>標籤包裹起來的,總體來說提取難度挺小。

        開啟cmd,輸入scrapy startproject daomubiji,這時候會生成一個工程,然後我把整個工程複製到pycharm中

上圖就是工程的結構。

        DaomubijiSpider.py ------Spider 蜘蛛

        items.py -----------------對要爬取資料的模型定義

        pipelines.py-------------處理要儲存的資料(存到資料庫和寫到檔案)

        settings.py----------------對Scrapy的配置

        main.py -------------------啟動爬蟲

        test.py -------------------- 測試程式(不參與整體執行)

   下面將解析和儲存的程式碼貼一下,完整程式碼已上傳到github:https://github.com/qiyeboy/daomuSpider

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 DaomubijiSpider.py (解析html) #coding:utf-8 importscrapy fromscrapy.selectorimportSelector from

相關推薦

python爬蟲-盜墓筆記

       本來今天要繼續更新scrapy爬取美女圖片系列文章,可是發現使用免費的代理ip都非常不穩定,有時候連線上,有時候連線不上,所以我想找到穩定的代理ip,下次再更新  scrap

Python爬蟲-糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事,學學python爬蟲。 在正式學爬蟲前,簡單學習了下HTML和CSS,了解了網頁的基本結構後,更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白 列表 ngs python爬蟲在爬取網頁內容時,需要將內容連同內容格式一同爬取過來,然後在自己的web頁面中顯示,自己的web頁面為django框架 首先定義一個變量html,變量值為一段HTML代碼 >&

python 爬蟲 證券之星網站

爬蟲 周末無聊,找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要,需要做深度學習識別惡意二進制文件,所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

Python爬蟲廣州大學教務系統的成績(內網訪問)

enc 用途 css選擇器 狀態 csv文件 表格 area 加密 重要 用Python爬蟲爬取廣州大學教務系統的成績(內網訪問) 在進行爬取前,首先要了解: 1、什麽是CSS選擇器? 每一條css樣式定義由兩部分組成,形式如下: [code] 選擇器{樣式} [/code

python爬蟲——古詩詞

爬蟲 古詩詞 實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析 通過firedebug進行頁面定位: 源碼定位: 根據lxml etree定位div標簽:# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲淘寶商品做數據挖掘分析實戰篇,超詳細教程

實戰 趨勢 fat sts AI top 名稱 2萬 安裝模塊 項目內容 本案例選擇>> 商品類目:沙發; 數量:共100頁 4400個商品; 篩選條件:天貓、銷量從高到低、價格500元以上。 項目目的 1. 對商品標題進行文本分析 詞雲可視化 2.

Python爬蟲 - 百度html代碼前200行

http src mage bsp bubuko str 百度 爬蟲 圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

簡易python爬蟲boss直聘職位,並寫入excel

python爬蟲寫入excel1,默認城市是杭州,代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

Python 爬蟲微信文章

微信爬蟲 爬取微信文章 爬取公眾號文章搜狗微信平臺為入口 地址:http://weixin.sogou.com/ --------------------------------------------------------------搜索關鍵詞“科技”對比網址變化情況查看網址http://wei

python爬蟲QQ說說並且生成詞雲圖,回憶滿滿!

運維開發 網絡 分析 matplot 容易 jieba 編程語言 提示框 然而 Python(發音:英[?pa?θ?n],美[?pa?θɑ:n]),是一種面向對象、直譯式電腦編程語言,也是一種功能強大的通用型語言,已經具有近二十年的發展歷史,成熟且穩定。它包含了一組完善而且

Python爬蟲OA幸運飛艇平臺獲取數據

sta 獲取數據 status fail attrs color wrapper 排行榜 req 安裝BeautifulSoup以及requests 打開window 的cmd窗口輸入命令pip install requests 執行安裝,等待他安裝完成就可以了 Beaut

利用python爬蟲圖片並且制作馬賽克拼圖

python爬蟲 splay ise 做事 c-c sea mage item -a   想在妹子生日送妹子一張用零食(或者食物類好看的圖片)拼成的馬賽克拼圖,因此探索了一番= =。   首先需要一個軟件來制作馬賽克拼圖,這裏使用Foto-Mosaik-Edda(網上也有在

Python - 爬蟲和登陸github

用API搜尋GitHub中star數最多的前十個庫,並用post方法登陸並點選收藏 一 用API搜尋GitHub中star數最多的前十個庫 利用GitHub提供的API爬取前十個star數量最多的Python庫     GitHub提供了很多專門為爬蟲準

Python爬蟲豆瓣電影、讀書Top250並排序

更新:已更新豆瓣電影Top250的指令碼及網站 概述 經常用豆瓣讀書的童鞋應該知道,豆瓣Top250用的是綜合排序,除使用者評分之外還考慮了很多比如是否暢銷、點選量等等,這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高,於是在這裡打算重新給To

Python爬蟲小說名著

週末閒來無事,本來想看一看書的,結果也沒看進去(RNG輸的我真是糟心。。。) 於是就用python寫了一個爬蟲,來爬取小說來看,防止下次還要去網上找書看。 我們先找一個看名著的小說網 我們開啟http://www.mingzhuxiaoshuo.com/ 名著小說網來,首先看到

Python爬蟲 - 網頁文字資訊並儲存(美文的與儲存)

 本篇文章所包含的主要內容:  使用requests模組實現對網頁以字串的形式儲存 使用open()、write()、close()函式實現檔案的開啟與寫入 使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

python爬蟲代理ip

  最近想玩玩代理IP的刷東西怎麼實現的,所以來試試(生計所迫) 這個是西刺免費代理IP http://www.xicidaili.com/ 不能保證都能用,所以爬取下來需要檢驗,用爬取的代理ip訪問網站,看狀態碼,是200就證明能用 儲存到MongoDB

python爬蟲新浪新聞的評論數以及部分評論

首先應該去找到評論數所對應的網頁元素: 可以大致猜測,這裡是用JavaScript·去計算評論數量的。 重新整理頁面,去觀測頁面的js部分,有沒有對應的連結,仔細檢視: 找到之後,點選Preview,看到內部結構: 可以看出count部分,total代表了參與人數,show欄位代