python爬蟲--解析網頁幾種方法之BeautifulSoup

阿新 • • 發佈：2017-10-02

first div xml html find 抓取 XML 格式速度慢析取

一.解析器概述

soup=BeautifulSoup(response.body)

對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser”。

　　解析器是什麽呢？ BeautifulSoup做的工作就是對html標簽進行解釋和分類，不同的解析器對相同html標簽會做出不同解釋。

　　舉個官方文檔上的例子：

BeautifulSoup("<a></p>", "lxml")
# <html><body><a></a></body></html>

BeautifulSoup("<a></p>", "html5lib")
# <html><head></head><body><a><p></p></a></body></html>

BeautifulSoup("<a></p>", "html.parser")
# <a></a>

　　官方文檔上多次提到推薦使用"lxml"和"html5lib"解析器，因為默認的"html.parser"自動補全標簽的功能很差，經常會出問題。

二、使用BeautifulSoup抓取新聞網站新聞標題。

import requests
from bs4 import BeautifulSoup
link = "http://tuijian.hao123.com/finance"
headers = {‘User-Agent‘ : ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6 
‘}
r = requests.get(link, headers= headers)
soup = BeautifulSoup(r.text,"html.parser")
first_title = soup.find("div", class_="box-text").text 
print ("第一篇文章的標題是：", first_title)
title_list = soup.find_all("div", class_="box-text")
for i in range(len(title_list)):
    title = title_list[i].text.strip()
     
print (‘第 %s 篇文章的標題是：%s‘ %(i+1, title))

技術分享

find_all找到所有結果，結果是一個列表。用一個循環，把標題列出。

解析器	使用方法	優勢	劣勢

Python標準庫	BeautifulSoup(markup, “html.parser”)	Python的內置標準庫執行速度適中文檔容錯能力強	Python 2.7.3 or 3.2.2)前的版本中文檔容錯能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文檔容錯能力強	需要安裝C語言庫
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安裝C語言庫
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容錯性以瀏覽器的方式解析文檔生成HTML5格式的文檔	速度慢

python爬蟲--解析網頁幾種方法之BeautifulSoup

first div xml html find 抓取 XML 格式速度慢析取一.解析器概述 soup=BeautifulSoup(response.body) 對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser”

python爬蟲--解析網頁幾種方法之正則表達式

ima 3.5 ref string tex href quest user lin 1、正則表達式正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 re 模塊使 Python 語言擁有全部的正則表達式功能。 re.match函數 re.

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

常用的類庫為lxml，BeautifulSoup，re(正則) 學習Python中有不明白推薦加入交流群號：960410445 &nb

Python爬蟲資料的幾種儲存方法

txt檔案: 1, open('檔名', '讀寫模式' )， f = open('csdn.txt', 'w', encodeing='utf-8') 2，f

python調試的幾種方法

自動一個修復bug fun comm .info 下一步 asi recent 調試 From ：https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/

Python 下載圖片的幾種方法

load color quest content 利用 pytho get .com 圖片總結下： url = ‘http://img.pconline.com.cn/images/upload/upc/tx/photoblog/1707/31/c14/54293429_

python字串複製的幾種方法

>>> list1 = [1,2] >>> id(list1) 50081032 >>> list2 = list1.copy() >>> print(list1 == list2) True >>> id(lis

用python生成隨機數的幾種方法

今天學習了用python生成模擬資料的一些基本方法和技巧，寫成部落格和大家分享一下。本篇部落格主要講解如何從給定引數的的正態分佈/均勻分佈中生成隨機數以及如何以給定概率從數字列表抽取某數

python 獲取路徑的幾種方法

1、sys.path[0] 獲取當前執行的python檔案路徑，無論是在別的模組中的什麼位置使用sys.path[0] 都會返回同一個值，當前執行的Python檔案路徑。 2、os.getcwd() 獲取Python的工作目錄。預設就是命令列執行命令的路徑，但是可以通

python爬蟲解析網頁編碼問題

最近做了一個需求，爬取n多新聞新聞url的正文。這些url是從百度新聞搜尋關鍵字爬取下來的碰到gbk，gb2132,utf-8網頁編碼解析時都能跑通。以下是部分程式碼，記錄一下def run(self): filename = u'D:\scrapyProject\l

[Python]列表複製的幾種方法

為了追蹤記憶體中的物件，Python採用了引用計數這一簡單技術。變數實際是記憶體物件的別名，可以看成是C++中引用。當引用計數為0時，該物件就稱為垃圾回收機制的回收物件。所以下面的列表複製只是將給列表又起了個別名而已： >>> a =

python 寫入csv的幾種方法總結（一維陣列，二維矩陣的寫入）

轉自：https://blog.csdn.net/waple_0820/article/details/70049953最常用的一種方法，利用pandas包import pandas as pd #任意的多組列表 a = [1,2,3] b = [4,5,6] #

學習筆記：Android裡JSON解析的幾種方法

一、解析方法：　Android解析json有很多種方法，下面介紹三種方法：Android自帶的org.json解析、Gson解析和Jackson解析。優缺點對比：　Android自帶的方法有點像xml的dom解析，遍歷之後根據需要的key值去取資

Python安裝模組的幾種方法

一、方法1：單檔案模組直接把檔案拷貝到 $python_dir/Lib 二、方法2：多檔案模組，帶setup.py 下載模組包，進行解壓，進入模組資料夾，執行：python setup.py install 三、方法3：easy_install 方式先下載ez_

python儲存檔案的幾種方法

1>儲存為二進位制檔案，pkl格式 import pickle pickle.dump(data,open('file_path','wb')) #字尾.pkl可加可不加若檔案過大 pi

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Linux獲取網頁原始碼的幾種方法 linux爬蟲程式

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python併發程式設計之建立多執行緒的幾種方法

今天的內容會比較基礎，主要是為了讓新手也能無障礙地閱讀，所以還是要再鞏固下基礎。學完了基礎，你們也就能很順暢地跟著我的思路理解以後的文章。本文目錄學會使用函式建立多執行緒學會使用類建立多執行緒多執行緒：必學函式講解經過總結，Python建立多執行緒主要有如下兩種方法：函式類接

重構之--重新組織函數的幾種方法

methods nor com owin 你會 banner 擔心 ont logs 重構手法中，很大一部分都是在對函數進行整理，很多問題也都來自Long Methods(過長的函數)，下邊就介紹一下關於重新組織函數的幾種常用手法 1 Extract Method(提煉函數

Python中叠代輸出(index,value)的幾種方法

lan 隨筆 art 此外 range spa 詳細介紹參考 pri 需求如下：叠代輸出序列的索引(index)和索引值(value)。 1.創建測試列表： >>> lst = [1,2,3,4,5] 2.實現方法如下： #方法1：range()+

python爬蟲--解析網頁幾種方法之BeautifulSoup

相關推薦