python編寫爬蟲獲取區域程式碼-遞迴獲取所有子頁面

阿新 • • 發佈：2019-02-14

上一篇文章用htmlparser寫了一個java的獲取區域的爬蟲，覺得太笨重。發現python也可以實現這個功能。

這裡就簡單寫一個用python3寫的小爬蟲例子

功能目標：對指定網站的所有區域資訊進行篩選，並儲存到文字中

思路：1、定義一個佇列，初始向佇列中put一個地址

2、判斷佇列是否為空，不為空呼叫getURL函式，為空則結束

3、getURL獲取URL連結的內容，並用beautifulSoup（第三方需要單獨安裝，可百度）匹配a連結

4、對匹配的內容進行字串拼接，呼叫text_create儲存成文字

宣告：這個只是一個DEMO，可以參考學習使用，所以邏輯不是很嚴謹，大家勿噴。

#coding:utf-8
import urllib.request
import sys,operator
import queue
import re
import sys
from bs4 import BeautifulSoup
base = "http://www.diqudaima.com/"
lr = queue.Queue()

def text_create(name, msg):#儲存檔案，傳入檔名與內容
    desktop_path = '/Users/wuhao/Desktop/python/'    
    full_path = desktop_path + name + '.txt' 
    file = open(full_path,'w')             
    file.write(msg) 
    file.close() 
    print('Done :',name)

def getURL(url):
	try:
		req = urllib.request.Request(url)
		response = urllib.request.urlopen(req)
		the_page = response.read().decode("GBK")
		soup = BeautifulSoup(the_page, 'html.parser')
		data=soup.select("div ul li a")#獲取a連結
		body =''
		if len(data)>0:
			for html_tag in data:
				print("title :  "+html_tag.string)
				print(base+html_tag['href'][1:])
				body+=html_tag.string
				body+='\n'
				lr.put_nowait(base+html_tag['href'][1:])
		else:
			data=soup.select("div ul li")
			for html_tag in data:
				print("title :  "+html_tag.string)
				body+=html_tag.string
				body+='\n'
		mode = re.compile(r'\d+')
		print (mode.findall(url))
		if len(mode.findall(url))>0:
			text_create(mode.findall(url)[0],body)
	except:#因為可能出現TimeoutError等異常，這裡捕獲並重新放入佇列中
		print("連結超時,未處理連結:",lr.qsize())
		lr.put_nowait(url)
	else:
		print("未處理連結:",lr.qsize())

if __name__ == "__main__":
	url="http://www.diqudaima.com/zhejiang/hangzhoushi/"
	lr.put_nowait(url)
	while not lr.empty():
		vistorUrl =lr.get_nowait()
		print ("訪問連結:"+vistorUrl)
		getURL(vistorUrl)

執行結果：

python編寫爬蟲獲取區域程式碼-遞迴獲取所有子頁面

上一篇文章用htmlparser寫了一個java的獲取區域的爬蟲，覺得太笨重。發現python也可以實現這個功能。這裡就簡單寫一個用python3寫的小爬蟲例子功能目標：對指定網站的所有區域資訊進行篩選，並儲存到文字中思路：1、定義一個佇列，初始向佇列中put一個地址

【18年北京網路賽】Tomb Raider【遞迴求所有子序列】

Tomb Raider 題目描述： Lara Croft, the fiercely independent daughter of a missing adventurer, must push herself beyond her limits when she di

sql遞迴查詢所有子單位

with org(OrgID,OrgName,ParentID,[level]) as (select orgid,orgname,parentid,0 as [level] from SYSOrgwhere orgname like ''%'+ @DW +'%''unio

使用eclipse+python編寫爬蟲獲取python百科的1000條詞條

爬蟲的機構 1. 爬蟲的排程端作用是實現爬蟲的啟動，停止和監視爬蟲的執行情況包括URL管理器：包含待爬取的URL和已經爬取的URL 把待爬取的URL送到網頁下載器，下載器會將URL指定的網頁下載下來儲存成一個字串，這個字串會傳送給玩野直譯器解析，一方面解釋

python學習筆記(25) 堆疊和遞迴實現三級選單

menu = { '北京':{ '海淀':{ '五道口':{}, '上地':{}, '西三旗':{} }, '昌平':{}, '朝陽':{}, '東城':{} }

js遞迴獲取某個父節點下面的所有子節點

本次的工作主要是計算節點橙色部分標記的子節點數量，沒有橙色部分的節點，只是隱藏了橙色部分 json資料格式類似這種： { "name": "aaa", "Children": [ { "name": "aaa",

SQL Server 利用WITH AS遞迴獲取層級關係資料

WITH AS短語，也叫做子查詢部分（subquery factoring），在SQL Server 2005中提供了一種解決方案，這就是公用表表達式（CTE），使用CTE，可以使SQL語句的可維護性，同時，CTE要比表變數的效率高得多。下面是CTE的語法：

python學習之-函式的地遞迴

什麼是函式的遞迴在呼叫一個函式的過程中又直接或者間接地呼叫該函式本身,稱之為函式的遞迴呼叫遞迴的呼叫是有層級限制的。預設從0 -997 遞迴的用處遞迴的本質就是迴圈，某些地方比迴圈方便，for迴圈取值方便，while迴圈是條件迴圈（受條件控制），而遞迴也是一個重複的過程，優勢只需

js原生遞迴獲取一個節點的所有父級節點

<!DOCTYPE html> <html lang="en" dir="ltr"> <head> <meta charset="utf-8"> <title></title> </head>

字串遞迴獲取指定字元位置內容資訊

針對目前字串處理indexof 無法直接獲取指定到的位置字元處理 /// <summary> /// 字串擷取，獲取 /// 原字串：啊啊啊\\不不不\\擦擦擦\\嗯嗯嗯\\打算 /// 次數是1: 啊啊啊\\

(D11)Python-函數語言程式設計，遞迴，閉包

函數語言程式設計函數語言程式設計函數語言程式設計是指用一系列函式解決問題函式是一等公民好處： - 用每個函式完成細小的功能，一系列函式組合可以解決大問題 - 函式僅接收輸入併產生輸出，不包含任何能影像輸出的內部狀態函式的可重入性：

PHP遞迴獲取選單

//首先做一個類內的變數，儲存一下相關的陣列： public $tree = null; //然後做個測試方法，用於輸出結果 public function test() { $r

Java遞迴獲取zTree標準結構資料優化

資料結構： var nodes = [ {name: "父節點1", children: [ {name: "子節點1"}, {name: "子節點2"} ]} ]; // 獲取標準JSON資料 public st

Mysql遞迴獲取某個父節點下面的所有子節點和子節點上的所有父節點

在MySQL中自定義函式來實現遞迴獲取所有子節點，該方式的優點是可以減少java程式碼量，缺點是：1.不好維護；2.拼接的欄位太長的時候，自定義函式的返回值可能容量不夠，此時可以定義為text等大容量型別；3：show variables like 'group_concat_max_len'&nb

java遞迴獲取某個父節點下面的所有子節點

一.舉個栗子 1.menu實體類 package com.dafy.insureagent.bean; public class Menu { private String id; private String name; private String pid; p

光柵圖形學-區域填充-遞迴

區域是指已經表示成點陣形式的填充圖形，它是畫素的幾何。區域可採用內點表示和邊界表示兩種表現形式。邊界表示中，區域邊界著同一種顏色。區域填充指先將區域的一點賦予指定的顏色，然後將該顏色擴充套件到整個區域的

T-SQL 語句——CTE 遞迴獲取當前使用者及其所有下級使用者

CREATE TABLE #t( Id INT NOT NULL PRIMARY KEY IDENTITY, Name NVARCHAR(20) NOT NULL, ParentId INT NU

python 編寫爬蟲常用包下載地址、工具網站以及相關安裝問題集合（持續更新）

轉載請標明出處，謝謝。以下連結出現問題請私戳或留言，我儘快解決。免費代理ip網站: http://www.xicidaili.com/nn/ geckodriver 下載地址: https://github.com/mozilla/geckodrive

JS-遞迴獲取當前節點全部指定型別的子節點

線上預覽方法使用nodeType判斷型別，在allChildNodes方法內建立遞迴函式將allCN封裝在方法內。 <!DOCTYPE html> <html lang="en"> <head> <title>Document<

Python網路爬蟲實戰專案程式碼大全

WechatSogou [1]- 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬蟲，返回結果是列表，每一項均是公眾號具體資訊字典。 DouBanSpider [2]- 豆瓣讀書爬蟲。可以爬下豆瓣讀書標籤下的所有圖書，按評分排名依次儲存，儲

python編寫爬蟲獲取區域程式碼-遞迴獲取所有子頁面

相關推薦