python3.6爬取鳳凰網新聞-爬蟲框架式思維

阿新 • • 發佈：2019-02-03

一、序言

先前幾篇爬蟲的程式碼，是簡單的指令碼程式碼。在爬取小網頁覺得挺簡單、高效，但涉及複雜網頁的時候，就要考慮成熟的爬蟲框架與分散式。本篇部落格作為無框架式爬蟲和有框架式爬蟲的一個過渡，介紹具有框架式思維的爬蟲^_^。

二、框架結構圖

通常爬蟲分為五個部分，分別為：爬蟲排程器、URL管理器、網頁下載器、網頁解析器與資料儲存器。各部分的作用如下：

爬蟲框架模組作用說明
模組名稱	作用
爬蟲排程器	統籌排程其他四個模組之間的協調工作，可以理解為爬蟲框架的司令部。
URL管理器	管理URL連結，維護新URL集合（未爬取的連結）與舊URL集合（已爬取的連結）；同時提供獲取新URL連結的介面。
網頁下載器	從URL管理器中獲取未爬取的連結，並下載網頁。
網頁解析器	將網頁下載器下載的網頁進行解析，從中提取新的連結給URL管理器，將提取的有效資料返回給資料儲存器。
資料儲存器	將網頁解析出的有效資料進行儲存。

三、物種管理器介紹

通常寫爬蟲，我們先分析url，寫出url管理器模組；然後寫網頁下載器，這個比較簡單；根據url網頁內容寫出網頁解析器模組；根據解析器的有效資料型別，選擇合適的儲存方式檔案或者資料庫。

（一）URL管理器

該模組主要維護兩個變數：以爬取的URL集合和未爬取的URL集合。之所以選擇集合是因為集合中元素不能重複的特點，這就給url進行了一個去重。

該模組的主要介面有：

判斷是否有待取的URL，方法定義為has_new_url()。
新增新的URL到未爬取的集合中，方法定義為：add_new_url(url),add_new_urls(urls)。
獲取未爬取的URL，方法定義為get_new_url()。
獲取未爬取的URL集合大小，方法定義為new_url_size()。
獲取已爬取的URL集合大小，方法定義為old_url_size()。

（二）網頁下載器

該模組主要用到的庫為requests，當然大家也可以根據自己需要選擇urllib庫等。具有的介面為：download（url）。

（三）網頁解析器

用於解析的庫主要用到BeautifulSoup、lxml等。提供一個parser對外的介面。

（四）資料儲存器

資料儲存器主要包括兩個方法：store_data(data)用於將解析出來的有效資料儲存到記憶體；output_html()用於將儲存的資料輸出到指定的檔案或者資料庫。

（五）爬蟲排程器

該模組首先要初始化其他四個模組，通過crawl(root_url)方法將起始連結傳入URL管理器，然後按照排程器流程執行各個模組，協調工作。

四、實戰演示

介紹了爬蟲框架基本的結構以及每個模組的作用和基本方法，我們拿一個網站實戰演練下。選取的網站為鳳凰網站的任意一個新聞連結（連結為文字，不能為視訊和圖片），提取其新聞標題和內容（內容格式不講究）。我們將

http://news.ifeng.com/a/20180429/57980009_0.shtml作為root_url。

該網頁的尾部有其他新聞，我們在網頁解析器裡面將這些連結提取出來進行爬取。

1.首先，我們根據上述所述，編寫UrlManager.py（URL管理器）。

#coding = utf-8
class UrlManager(object):
	
	def __init__(self):
		self.new_urls = set() #未爬取URL集合
		self.old_urls = set()#未爬取URL集合

	def has_new_url(self):
		'''判斷是否有未爬取的URL
		:return:
		'''
		return self.new_url_size() != 0
	def get_new_url(self):
		'''獲取一個未爬取的URL
		:return
		'''
		new_url = self.new_urls.pop()
		self.old_urls.add(new_url)
		return new_url

	def add_new_url(self, url):
		'''
		將新的URL新增到未爬取的URL集合中
		:param url：單個URL
		:return:
		'''
		if url is None:
			return
		if url not in self.new_urls and url not in self.old_urls:
			self.new_urls.add(url)

	def add_new_urls(self, urls):
		'''
		將新的URL新增到未爬取的URL集合中
		:param urls:url 集合
		:return:
		'''
		if urls is None or len(urls) == 0:
			return
		for url in urls:
			self.add_new_url(url)

	def new_url_size(self):
		'''
		獲取未爬取URL集合的大小
		:return:
		'''
		return len(self.new_urls)
	def old_url_size(self):
		'''
		獲取已爬取URL集合的大小
		:return:
		'''
		return len(self.old_urls)

2.編寫網頁下載器HtmlDownloader.py

# coding:utf-8
import requests
class HtmlDownloader(object):

	def download(self, url):
		if url is None:
			return None
		user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36'
		headers = {'User_Agent':user_agent}
		try:
			r = requests.get(url, headers=headers)
		except Exception as e:
			print(e)
		if r.status_code==200:
			r.encoding = 'utf-8'
			return r.text
		return None

3.編寫網頁解析器

我們首先開啟上述root_url網頁，查詢新聞標題與內容所在標記位置：

新聞內容所在位置，看下圖。

所以，網頁解析器HtmlParser.py程式碼如下：

#coding:utf-8
import re
import urllib
from bs4 import BeautifulSoup

class HtmlParser(object):

	def parser(self, page_url, html_cont):
		'''
		用於解析網頁內容，抽取URL和資料
		:param page_url:下載頁面的URL
		:param html_cont:下載的網頁內容
		:return:返回URL和資料
		'''
		if page_url is None or html_cont is None:
			return
		soup = BeautifulSoup(html_cont, 'html.parser')
		new_urls = self._get_new_urls(page_url, soup)
		new_data = self._get_new_data(page_url, soup)
		return new_urls, new_data

	def _get_new_urls(self, page_url, soup):
		'''
		抽取新的URL集合
		:param page_url:下載頁面的URL
		:param soup:soup
		:return:返回新的URL集合
		'''
		new_urls = set()
		#抽取符合要求的a標記
		links = soup.find_all('a',href=re.compile(r'http://news.+\.shtml'))
		for link in links:
			#提取href屬性
			new_url = link['href']
			#拼接成完整網址
			new_full_url = urllib.parse.urljoin(page_url, new_url)
			new_urls.add(new_full_url)
		return new_urls

	def _get_new_data(self, page_url, soup):
		'''抽取有效資料
		:param page_url:下載頁面的URL
		:param soup：soup
		:return:返回有效資料
		'''
		try:
			data = {}
			print('抓取'+str(page_url))
			data['url'] = page_url
			title = soup.find('h1',{'id':'artical_topic'}).text
			data['title'] = title
			summary = soup.find('div',{'id':'main_content'}).text
			#獲取tag中包含的所有新聞文字內容，將結果作為Unicode字串返回
			data['summary'] = summary
			return data
		except:
			print("連結不符合")
			return None

4.編寫資料儲存器DataOutput.py，咱們姑且用json檔案儲存爬取的資料吧。

程式碼如下：

# coding:utf-8
import codecs, json
class DataOutput(object):

	def __init__(self):
		self.datas = []

	def store_data(self, data):
		if data is None:
			return
		self.datas.append(data)

	def output_html(self):
		fout = codecs.open('news.json','w',encoding='utf-8')
		json.dump(self.datas,fp=fout,indent=4,ensure_ascii=False)#將所有資料寫入檔案。

SpiderMan.py

5.爬蟲排程器SpiderMan.py

# coding:utf-8
from DataOutput import DataOutput
from HtmlDownloader import HtmlDownloader
from HtmlParser import HtmlParser
from UrlManager import UrlManager

class SpiderMan(object):

	def __init__(self):
		self.manager = UrlManager()
		self.downloader = HtmlDownloader()
		self.parser = HtmlParser()
		self.output = DataOutput()

	def crawl(self, root_url):
		#新增入口URL
		self.manager.add_new_url(root_url)
		#判斷url管理器中是否有新的url，同時判斷抓取多少url
		while(self.manager.has_new_url() and self.manager.old_url_size()<100):
			# try:
			#從URL管理器獲取新的url
			new_url = self.manager.get_new_url()
			#HTML下載器下載網頁
			html = self.downloader.download(new_url)
			#HEML解析器抽取網頁資料
			new_urls, data = self.parser.parser(new_url, html)
			#將抽取的url新增到URL管理器中
			self.manager.add_new_urls(new_urls)
			#資料儲存器儲存檔案
			self.output.store_data(data)
			print("已經抓取%s個連結"%self.manager.old_url_size())
			# except Exception as e:
			# 	print(e)
			# 	print("Crawl failed")
		#資料儲存器將檔案輸出成指定格式
		self.output.output_html()
if __name__ == "__main__":
	Spider_man = SpiderMan()
	Spider_man.crawl('http://news.ifeng.com/a/20180429/57980009_0.shtml')

我們將上述檔案放到同一個資料夾：

然後就可以執行排程器py檔案，設定爬取連結為100個，

程式執行效果。

最後我們看下news.json檔案

五、結束語

本篇部落格的重點是理解爬蟲框架，大家可以根據自己的需要修改程式，使之符合自己的需求。

最後依然希望大家多多關注，後續更新更精彩。

python3.6爬取鳳凰網新聞-爬蟲框架式思維

一、序言先前幾篇爬蟲的程式碼，是簡單的指令碼程式碼。在爬取小網頁覺得挺簡單、高效，但涉及複雜網頁的時候，就要考慮成熟的爬蟲框架與分散式。本篇部落格作為無框架式爬蟲和有框架式爬蟲的一個過渡，介紹具有框架式思維的爬蟲^_^。二、框架結構圖通常爬蟲分

Python3.6爬取網站圖片

最近幾天在學習python，寫了個簡單的爬蟲程式：成功執行程式碼的前提是安裝了Python需要的第三方庫，以下是程式碼： # -*- coding:utf8 -*- import os import re import requests as rq import urll

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

最簡單的網絡圖片的爬取 --Pyhon網絡爬蟲與信息獲取

文件 spa lose man spl roo () pen image 1、本次要爬取的圖片url http://www.nxl123.cn/static/imgs/php.jpg 2、代碼部分 import requestsimport osurl = "ht

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

# 第二頁：https://hz.zu.ke.com/zufang/pg2 # 第一頁：https://hz.zu.ke.com/zufang/pg1 import urllib.request import random import re def user_ip(): ''

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

python3.基礎爬取網易雲音樂【超詳細版】

簡單學習了python爬蟲之後，我們就可以嘿咻嘿咻了...因為平時就是用網易雲聽的歌，也喜歡看歌裡的評論，所以就爬網易雲音樂評論吧！正式進入主題首先還是去找目標網頁並開始分析網頁結構，如下上面的三個箭頭都是所要找的資料，分別是評論使用者，評論和點贊數，都可以用正則表示式找出來，接下來繼續找怎樣

Python爬蟲-爬取開心網主頁(有登入介面-利用cookie)

爬取開心網主頁內容 ========================================== ======================================= =================================== 1 ''' 2 登入開

爬蟲——爬取人民網資料生成詞雲圖

1、以人民網的新聞資料為例，簡單介紹的利用python進行爬蟲，並生成詞雲圖的過程。首先介紹python的requests庫，它就好像是一個“爬手”，負責到使用者指定的網頁上將所需要的內容爬取下來，供之後的使用。我們可以利用python的pip功能下載requests庫，在cmd視窗輸入

反爬蟲-python3.6抓取貓眼電影資訊

思路分解： 1.頁面資訊 url:http://maoyan.com/cinema/24311?poi=164257570 檢視資訊發現價格存在亂碼現象：重新整理頁面找到亂碼的URL，下載woff格式檔案：方法：複製URL：右鍵單擊轉

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

爬取外網資料（twitter、facebook）-易數雲視覺化爬蟲軟體

採集外網資料一直比較難，偶然通過淘寶知道這個軟體，試了下，還不錯。這個還可以直接定製爬取資料，當然按照我個性，最後還是選擇了買了規則，自己在家慢慢爬。採集資料有兩種方式： PC版採集+雲採集。奔著價效比高，選了PC版。單機採集+外網（自己電腦）先買個穩定點

python爬蟲——爬取知網體育學刊引證論文資訊

前言國慶百無聊賴，然後幫一個小姐姐爬取知網資訊，覺得知網算目前處理過的對爬蟲稍微有點防範的網站，遂有了這篇部落格目標爬取知網上2003年體育學刊文獻所有論文的引證論文，包括論文名稱、作者、發表時間，也就是下面紅框所指處點選click處，點選黑框，紅框所

Python爬蟲實戰(6)-爬取QQ空間好友說說並生成詞雲(超詳細)

前言先看效果圖: TXT檔案：如果想生成特定圖片樣式的詞雲圖，可以直接訪問下面這篇文章學一下： https://mp.weixin.qq.com/s/FUwQ4jZu6KMkjRvEG3UfGw 前幾天我們陸陸續續的講了Python如何生成

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python2 Python3 爬取趕集網租房資訊,帶原始碼分析

*之前偶然看了某個騰訊公開課的視訊,寫的爬取趕集網的租房資訊,這幾天突然想起來,於是自己分析了一下趕集網的資訊,然後自己寫了一遍,寫完又用用Python3重寫了一遍.之中也遇見了少許的坑.記一下.算是一

python3.6爬取鳳凰網新聞-爬蟲框架式思維

相關推薦