廣度優先遍歷——爬蟲的python3實現

阿新 • • 發佈：2018-12-18

參考：https://www.cnblogs.com/goodhacker/p/3353146.html

採用廣度優先搜尋，使用python3語言進行網頁爬蟲

實驗工具：jupyter notebook

起始頁網址：https://www.cnblogs.com/goodhacker/p/3353146.html

目標網址：http://book.51cto.com/art/201012/236668.htm

原始碼：

#encoding=utf-8
from bs4 import BeautifulSoup
import socket 
import urllib.request as request
import zlib 
import re
      
class MyCrawler:  
    def __init__(self,seeds):  
            #使用種子初始化url佇列  
            self.linkQuence=linkQuence()  
            if isinstance(seeds,str):  
                self.linkQuence.addUnvisitedUrl(seeds)  
            if isinstance(seeds,list):  
                for i in seeds:  
                    self.linkQuence.addUnvisitedUrl(i)  
            print("Add the seeds url \"%s\" to the unvisited url list"%str(self.linkQuence.unVisited))  
    
        #抓取過程主函式  
    def crawling(self,seeds,crawl_count):  
            #迴圈條件：待抓取的連結不空且專區的網頁不多於crawl_count  
            while self.linkQuence.unVisitedUrlsEnmpy() is False and self.linkQuence.getVisitedUrlCount()<=crawl_count:  
                #隊頭url出佇列  
                visitUrl=self.linkQuence.unVisitedUrlDeQuence()  
                print("Pop out one url \"%s\" from unvisited url list"%visitUrl)
                if visitUrl =="http://book.51cto.com/art/201012/236668.htm":
                    break
                if visitUrl is None or visitUrl=="":  
                    continue  
        
                #獲取超連結  
                links=self.getHyperLinks(visitUrl) 
                #links=getHyperLinks(visitUrl) 
    
                print("Get %d new links"%len(links))  
                #將url放入已訪問的url中  
                self.linkQuence.addVisitedUrl(visitUrl)  
                print("Visited url count: "+str(self.linkQuence.getVisitedUrlCount()))  
                #未訪問的url入列  
                for link in links:  
                    self.linkQuence.addUnvisitedUrl(link)  
                print("%d unvisited links:"%len(self.linkQuence.getUnvisitedUrl())) 
                  
        
    #獲取原始碼中得超連結  
    def getHyperLinks(self,url):
        links=[]
        data=self.getPageSource(url)  
        if data[0]=="200":  
            soup=BeautifulSoup(data[1])  
            a=soup.findAll("a",{"href":re.compile(".*")})  
            for i in a:  
                if i["href"].find("http://")!=-1:  
                    links.append(i["href"])   
        return links  
          
        #獲取網頁原始碼  
    def getPageSource(self,url,timeout=20,coding=None):  
        try:  
            #socket.settime(100)
            socket.setdefaulttimeout(timeout) 
            
            #req = urllib.request(url) 
            req = request.Request(url) 
            
            req.add_header('User-agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')  
           
            response = request.urlopen(req)  
            #if coding is None:  
                #coding= response.headers.getparam("charset")  
            if coding is None:  
                page=response.read()  
            else:  
                page=response.read()  
                page=page.decode(coding).encode('utf-8')  
            return ["200",page]  
        except Exception as e:  
            print(str(e))  
            return [str(e),None]  
              
class linkQuence:  
    def __init__(self):  
        #已訪問的url集合  
        self.visted=[]  
        #待訪問的url集合  
        self.unVisited=[]  
    #獲取訪問過的url佇列  
    def getVisitedUrl(self):  
        return self.visted  
    #獲取未訪問的url佇列  
    def getUnvisitedUrl(self):  
        return self.unVisited  
    #新增到訪問過得url佇列中  
    def addVisitedUrl(self,url):  
        self.visted.append(url)  
    #移除訪問過得url  
    def removeVisitedUrl(self,url):  
        self.visted.remove(url)  
    #未訪問過得url出佇列  
    def unVisitedUrlDeQuence(self):  
        try:  
            return self.unVisited.pop()  
        except:  
            return None  
    #保證每個url只被訪問一次  
    def addUnvisitedUrl(self,url):  
        if url!="" and url not in self.visted and url not in self.unVisited:  
            self.unVisited.insert(0,url)  
    #獲得已訪問的url數目  
    def getVisitedUrlCount(self):  
        return len(self.visted)  
    #獲得未訪問的url數目  
    def getUnvistedUrlCount(self):  
        return len(self.unVisited)  
        #判斷未訪問的url佇列是否為空  
    def unVisitedUrlsEnmpy(self):  
        return len(self.unVisited)==0  
          
    def main(seeds,crawl_count):  
        craw=MyCrawler(seeds)  
        craw.crawling(seeds,crawl_count)  
    if __name__=="__main__":  
        main(["https://www.cnblogs.com/goodhacker/p/3353146.html"],50)

執行結果：

遇到的問題是參考原文中用的是python2，在python3中一些函式發生改變，經過檢視python的官方文件解決。

廣度優先遍歷——爬蟲的python3實現

參考：https://www.cnblogs.com/goodhacker/p/3353146.html 採用廣度優先搜尋，使用python3語言進行網頁爬蟲實驗工具：jupyter notebook 起始頁網址：https://www.cnblogs.com/goo

無向圖廣度優先遍歷及其matlab實現

margin cte align style -- als 矩陣 ffffff bre 廣度優先遍歷(breadth-first traverse,bfts)，稱作廣度優先搜索（breath first search）是連通圖的一種遍歷策略。之所以稱作廣度優先遍歷是因為

無向圖廣度優先遍歷及其JAVA實現

isp all 表示 -- 排列優先 bre image 完成廣度優先遍歷(breadth-first traverse,bfts)，稱作廣度優先搜索（breath first search）是連通圖的一種遍歷策略。之所以稱作廣度優先遍歷是因為他的思想是從一個頂點V0開

圖：深度優先遍歷和廣度優先遍歷（Java實現）

深度優先遍歷深度優先遍歷，從初始訪問結點出發，我們知道初始訪問結點可能有多個鄰接結點，深度優先遍歷的策略就是首先訪問第一個鄰接結點，然後再以這個被訪問的鄰接結點作為初始結點，訪問它的第一個鄰接結點。總結起來可以這樣說：每次都在訪問完當前結點後首先訪問當前結點的

資料結構--圖的理解：深度優先和廣度優先遍歷及其 Java 實現

遍歷圖的遍歷，所謂遍歷，即是對結點的訪問。一個圖有那麼多個結點，如何遍歷這些結點，需要特定策略，一般有兩種訪問策略：深度優先遍歷廣度優先遍歷深度優先深度優先遍歷，從初始訪問結點出發，我們知道初始訪問結點可能有多個鄰接結點，深度優先遍歷的策略就是首先訪問第一個

無向圖的構建及廣度優先遍歷---鄰接表實現

相關問題及基本理論已於前面的幾篇部落格中說明，現僅僅給出code。 code /* 無向圖的構建（鄰接表實現）及其廣度優先遍歷 */ #include <stdio.h> #include <stdlib.h> #define MAX_VERT

無向圖廣度優先遍歷 c語言實現

這裡記錄一下無向圖的廣度優先遍歷，無向圖用鄰接表表示，使用的圖的示例圖如下，關於圖的表示可以參照部落格：無向圖的表示：鄰接矩陣和鄰接表，這裡不再贅述，無向圖的表示的程式碼被封裝到標頭檔案queue.h

圖的鄰接表儲存深度優先遍歷廣度優先遍歷 C語言實現

ALGraph.h #pragma once #include "Queue.h" /************************************************************************/ /

Java實現圖的深度和廣度優先遍歷算法

lan 圖結構廣度搜索源代碼下載源代碼 earch isempty 學習 ole 概述：近期要學習寫網絡爬蟲。所以把圖的深度和廣度搜索都再溫習一下。圖結構展示：實現過程：首先，我們來看看圖結構在代碼中的實現。有三塊邏輯： 1.圖中的節點

二叉樹的廣度優先遍歷、深度優先遍歷的遞歸和非遞歸實現方式

root 中序遍歷 queue push stack pop pac imp current 二叉樹的遍歷方式： 1、深度優先：遞歸，非遞歸實現方式　　1)先序遍歷：先訪問根節點，再依次訪問左子樹和右子樹　　2)中序遍歷：先訪問左子樹，再訪問根節點嗎，最後訪問右子樹

用鄰接矩陣實現的深度優先遍歷和廣度優先遍歷

using ++ while ext empty type push mat ron 1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <queue> 4

【樹】二叉樹遍歷算法（深度優先、廣度優先遍歷，前序、中序、後序、層次）及Java實現

order new link left 算法很多 == 都是 off 二叉樹是一種非常重要的數據結構，很多其它數據結構都是基於二叉樹的基礎演變而來的。對於二叉樹，有深度遍歷和廣度遍歷，深度遍歷有前序、中序以及後序三種遍歷方法，廣度遍歷即我們平常所說的層次遍歷。因為樹的定義

JavaScript實現DOM樹的深度優先遍歷和廣度優先遍歷

深度優先遍歷 // 非遞迴,首次傳入的node值為DOM樹中的根元素點，即html // 呼叫：deep(document.documentElement) function deep (node) { var res = []; // 儲存訪問過的節點 if (node !

JAVA實現圖的廣度優先遍歷

一：廣度優先遍歷介紹. 廣度優先遍歷(BFS)，廣度優先遍歷是儘可能的更多的把相鄰的元素都遍歷了,然後在訪問外層的,有點像中心開花由內到外. 從圖中任選一個頂點v，作為起始頂點.例如下圖：BFS的遍歷順序是

python實現二叉樹層次遍歷（寬度優先遍歷或叫廣度優先遍歷）

1、何為層次遍歷說白了，就是一層一層、由上至下、由左至右的搜尋遍歷二叉樹中的元素。上面這個二叉樹，那麼層次遍歷的輸出應該是：1、2、

PHP實現二叉樹的深度優先遍歷（前序、中序、後序）和廣度優先遍歷（層次）

前言：深度優先遍歷：對每一個可能的分支路徑深入到不能再深入為止，而且每個結點只能訪問一次。要特別注意的是，二叉樹的深度優先遍歷比較特殊，可以細分為先序遍歷、中序遍歷、後序遍歷。具體說明如下：前序遍歷：根節點->左子樹->右子樹中序遍歷：左子樹->根節點->右子樹後

Java實現圖的深度和廣度優先遍歷演算法

演算法入門——廣度優先遍歷、Dijkstra python實現

廣度優先搜尋演算法(Breadth First Search，BSF)，思想是： 1.從圖中某頂點v出發，首先訪問定點v 2.在訪問了v之後依次訪問v的各個未曾訪問過的鄰接點； 3.然後分別從這些鄰接點出發依次訪問它們的鄰接點，並使得“先被訪問的頂點的鄰接點先於後

樹的廣度優先遍歷和深度優先遍歷（遞迴非遞迴、Java實現）

在程式設計生活中，我們總會遇見樹性結構，這幾天剛好需要對樹形結構操作，就記錄下自己的操作方式以及過程。現在假設有一顆這樣樹，（是不是二叉樹都沒關係，原理都是一樣的） 1.廣度優先遍歷英文縮寫為BFS即Breadth FirstSearch。其過程檢驗來說是對每一層

資料結構--C語言--圖的深度優先遍歷，廣度優先遍歷，拓撲排序，用prime演算法實現最小生成樹，用迪傑斯特拉演算法實現關鍵路徑和關鍵活動的求解，最短路徑

實驗七圖的深度優先遍歷（選做，驗證性實驗，4學時）實驗目的熟悉圖的陣列表示法和鄰接表儲存結構，掌握構造有向圖、無向圖的演算法，在掌握以上知識的基礎上，熟悉圖的深度優先遍歷演算法，並實現。實驗內容（1）圖的陣列表示法定義及

廣度優先遍歷——爬蟲的python3實現

相關推薦