爬取N個網頁，並將其記錄

阿新 • • 發佈：2017-11-06

color 完整 encode down utf 模塊 round 初始函數

挖的坑，終於能填上了，先共享出來，大家有個對比參考。也幫忙找找錯誤。我也正在看，看看原來是哪裏出了問題。

下面這段代碼已經實現了網頁的爬取：

其效果為：

技術分享

下面給出詳細說明：

技術分享

上圖中出現的 __init__.py 文件，是一個空的，但是必須建立（我也沒想明白為啥）。

程序結束後，打開output.html 就可以了。

1.這是網頁管理模塊 url_manager.py （點擊+號，看代碼）

class UrlManager(object):
    
    def __init__(self):
        self.new_urls=set()
        self.old_urls 
=set()
        
    #向管理器中添加一個新的url
    def add_new_url(self,url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)
            
    #向管理器中添加多個新的url
    def add_new_urls(self,urls):
        if urls is None or 
 len(urls)==0:
            return
        for url in urls:
            self.add_new_url(url)
            
    #判斷管理器中是否還有新的待爬取的url
    def has_new_url(self):
        return len(self.new_urls)!=0
    
    #從管理器中獲取一個新的待爬取的url
    def get_new_url(self):
        new_url=self.new_urls.pop()#獲取並移除
        self.old_urls.add(new_url)# 
添加至舊的集合
        return new_url

View Code

2.這是下載網頁模塊 html_downloader.py

import urllib.request
class HtmlDownloader(object):
    
    #下載一個url裏的數據
    def download(self,url):
        if url is None:
            return None
        response=urllib.request.urlopen(url)#註意py2和py3不同
        if response.getcode()!=200:#狀態碼200表示獲取成功
            return None
        return response.read()#返回下載好的內容

View Code

3.這是網頁解析模塊 html_parser.py

from bs4 import BeautifulSoup
import re
import urllib.parse
#py3中urlparse在urllib中
class HtmlParser(object):
    
    #返回新的url集合
    def _get_new_urls(self,page_url,soup):
        new_urls=set()
        #獲取所有的鏈接，用正則匹配
        links=soup.find_all(‘a‘,href=re.compile(r"/item/"))
        for link in links:
            new_url=link[‘href‘]#獲取它的鏈接(不完全)
            #將不完整的new_url按照page_url的格式拼成完整的
            new_full_url=urllib.parse.urljoin(page_url,new_url)
            new_urls.add(new_full_url)
        return new_urls
    
    #返回對soup的解析結果
    def _get_new_data(self,page_url,soup):
        res_data={}
        #url
        res_data[‘url‘]=page_url
        
        #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
        #獲取詞條名(用了兩次find)
        title_node=soup.find(‘dd‘,class_="lemmaWgt-lemmaTitle-title").find("h1")
        #註意這裏先split再做join，將\\變成了\
        res_data[‘title‘]=‘\\‘.join(title_node.get_text().split(‘\\\\‘))#加入字典中
        
        #<div class="lemma-summary">
        #獲取摘要文字
        summary_node=soup.find(‘div‘,class_="lemma-summary")
        #註意這裏先split再做join，將\\變成了\
        res_data[‘summary‘]=‘\\‘.join(summary_node.get_text().split(‘\\\\‘))#加入字典中
        
        return res_data
    
    #解析一個下載好的頁面的數據，並返回新的url列表和解析結果
    def parse(self,page_url,html_cont):
        if page_url is None or html_cont is None:
            return
        #創建一個bs對象(將網頁字符串html_cont加載成一棵DOM樹)
        soup=BeautifulSoup(html_cont,‘html.parser‘)
        new_urls=self._get_new_urls(page_url,soup)
        new_data=self._get_new_data(page_url,soup)
        return new_urls,new_data

View Code

4.下面是網頁輸出模塊 html_outputer.py

class HtmlOutputer(object):
    
    def __init__(self):
        self.datas=[]
        
    #收集解析好的數據
    def collect_data(self,data):
        if data is None:
            return
        self.datas.append(data)
    
    #輸出所有收集好的數據
    def output_html(self):
        with open(‘output.html‘,‘w‘) as fout:
            fout.write("<html>")
            ‘‘‘fout.write("<head>")
            fout.write("<meta  charset=\"utf-8\">")
            fout.write("</head>")‘‘‘
            fout.write("<body>")
            fout.write("<table>")
            for data in self.datas:
                fout.write("<tr>")
                fout.write("<td>%s</td>"%data[‘url‘])
                fout.write("<td>%s</td>"%data[‘title‘])
                fout.write("<td>%s</td>"%data[‘summary‘].encode(‘utf-8‘))
                fout.write("</tr>")
            fout.write("</table>")
            fout.write("</body>")
            fout.write("</html>")
            fout.close()

View Code

5.主函數，運行這個就可以了

import url_manager,html_downloader,html_parser,html_outputer

class SpiderMain(object):
    
    def __init__(self):#在構造器中初始化所需要的對象
        self.urls=url_manager.UrlManager()#url管理器
        self.downloader=html_downloader.HtmlDownloader()#下載器
        self.parser=html_parser.HtmlParser()#解析器
        self.outputer=html_outputer.HtmlOutputer()#價值數據的輸出
        
    def craw(self,root_url):
        count=1#記錄當前爬取的是第幾個url
        self.urls.add_new_url(root_url)#先將入口url給url管理器
        #啟動爬蟲的循環
        while self.urls.has_new_url():#如果管理器中還有url
            try:
                new_url=self.urls.get_new_url()#就從中獲取一個url
                print (‘craw %d : %s‘%(count,new_url))#打印正在爬的url
                html_cont=self.downloader.download(new_url)#然後用下載器下載它
                #調用解析器去解析這個頁面的數據
                new_urls,new_data=self.parser.parse(new_url,html_cont)
                self.urls.add_new_urls(new_urls)#新得到的url補充至url管理器
                self.outputer.collect_data(new_data)#收集數據
                if count==30:#如果已經爬了30個直接退出
                    break
                count+=1
            except:
                print (‘craw failed‘)#標記這個url爬取失敗
        self.outputer.output_html()#循環結束後輸出收集好的數據
            
            

if __name__=="__main__":
    root_url="http://baike.baidu.com/item/Python"#入口url
    obj_spider=SpiderMain()
    obj_spider.craw(root_url)

View Code

以上內容，來自：http://blog.csdn.net/shu15121856/article/details/72903146

爬取N個網頁，並將其記錄

color 完整 encode down utf 模塊 round 初始函數挖的坑，終於能填上了，先共享出來，大家有個對比參考。也幫忙找找錯誤。我也正在看，看看原來是哪裏出了問題。下面這段代碼已經實現了網頁的爬取：其效果為：下面給出詳細說明：上圖中出現的 _

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

C 兩個連結串列中資料節點的資料域為一個字母，其中L1包含L2，在L1中找出與L2相等的字串，並將其逆置

前面相關操作在這呢，這個函式依託於此 //結構體 typedef struct Node { ElementType data; struct Node * next; } LNode, * LinkNode; //兩個連結串列中資料節點的資料域為一個字母 http

用x，y，z組成2個3位數，並將其相加成一個數字，求xyz

int x,y,x,i,result=520;　　 //可令result為隨機一個數字 for(i=100;i<=result;i++)　　//次處為演算法靈魂之處　　{ 　　　　x=i%100;　　　　//依次遞增1，遞增到10後變為0 　　　　y=i%100/10

求兩個元素遞增排列的連結串列的交集，並將其存放在某個連結串列中

#include "stdafx.h" #include<stdio.h> #include<malloc.h> #include<stdlib.h> typed

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

在搜狗新聞中，輸入關鍵詞（兩岸關係fa發展前景）後，出現6頁有關於這個關鍵詞的新聞。現在目的就是爬取有關這個關鍵詞的網頁文章，如題目、媒體、日期、內容、url。如下圖：載入包 import requests from bs4 import Beautif

堅持堅持！用Java寫出刪除一個連結串列的倒數第N個節點，並返回頭節點（N總是可達的）

這個題目有個前提條件就是N總是可達的，所以直接省去了一種情況（N不可達時的情況）思路：資料結構裡面首先給定兩個指標p和q分別都指向這個連結串列的頭節點，然後若想求出這個連結串列的倒數第N個節點，方法就是先讓p向後挪N個位置，q不動。因為N總是可達的，所以會有倆種情況，

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取天氣預報資料，並存入到本地EXCEL中

近期忙裡偷閒，搞了幾天python爬蟲，基本可以實現常規網路資料的爬取，比如糗事百科、豆瓣影評、NBA資料、股票資料、天氣預報等的爬取，整體過程其實比較簡單，有一些HTML+CSS+DOM樹等知識就很easy，我就以天氣預報資料的爬取為例，整理出來。需求：採

爬取拉勾網，並進行資料分析

拉勾網是現在網際網路招聘比較火熱的一個網站，本篇文章主要是爬取拉勾網“資料分析師”這個崗位，並且對所爬取到的資訊，進行資料分析。資料採集拉勾網的崗位資訊主要是用json檔案儲存，在position這個json檔案中，我們找到了所需要的崗位資訊

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

Linq_根據條件查詢兩個表，並將返回不同型別的結果合併

var deliveryOrderDetail = from d in _context.DeliveryOrderDetails

使用Python爬取中國大學排名，並格式化對其輸出內容

首先，我們需要注意幾點 1.可以使用isinstance語句配合bs4庫中的bs4.element.Tag判斷獲取到的物件是不是標籤物件. 2.輸出內容並且要求他用空白補齊時，系統預設用的是英文空白

定義一個介面，再定義類實現該介面，編寫應用程式，呼叫介面中的 3 個方法，並將呼叫方法所得的結果輸出。

/** * 定義一個介面，介面中有 3 個抽象方法如下。（1）“long fact(int m);”方法的功能為求引數的階乘。（2）“long intPower(int m,int n);”方法的功能為求引數 m 的 n 次方。（3）“boolean findFactor

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

（用指標方法處理）有n個整數，使前面各數順序向後移m個位置，最後m個數變成最前面m個數。編寫一個函式實現上述功能，在主函式中輸入n個整數，並輸出調整後的n個數

第一種方法：指標法 #include<stdio.h> #include<stdlib.h> int w(int *d,int e,int g) { int i,j,t; int *r; j=0; for(i=

爬取虎嗅網，並對爬取數據進行分析

ror range class index 關於 def mob 文章內容 gin 一、分析背景： 1，為什麽要選擇虎嗅　　「關於虎嗅」虎嗅網創辦於 2012 年 5 月，是一個聚合優質創新信息與人群的新媒體平臺。 2，分析內容分析虎嗅網 5 萬篇文章的基本情況，包括

26、自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱

The sch run parser ali pri mes use content 自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱。之所以選擇這個相對樸實的爬蟲項目，是因為天氣每天都會有變化，那麽在學完這一關之後，不出意外，你就可以在明早收到天氣信

linux列出文件夾下最近修改的文件，並將其copy到特定目錄

-m blank find work cnblogs 不知道 code 分段 class 由於我想把一個javaWeb項目的今天更改的文件移動到一個特定的文件夾，採用管道先找到改動的文件，然後用管道移動這些文件 find ./ -mtime 0 -name *.java

提取一個字符串中的數字，並將其轉為數組

var ace fun 有米 blog 提取 function pan 一個有米科技2017校招筆試題之一，以下是自己寫的，不代表最佳答案。舉例：str = ‘fdfd22fifei42fkdfl5hf66‘; 結果應為：[22,42,5,66] var str =

爬取N個網頁，並將其記錄

相關推薦