【python爬蟲筆記】網路爬蟲之提取

阿新 • • 發佈：2019-01-07

unit 4 BeautifulSoup庫入門

BeautifulSoup庫是解析、遍歷、維護“標籤樹”的功能庫

…
標籤 tag
…
name(成對出現) attributes(0或多個)

beautifulSoup對應一個html/xml文件的全部內容

beautiful soup庫解析器

解析器	使用方法	條件
bs4的html解析器	BeautifulSoup(mk,’html.parser’)	安裝bs4庫
lxml的html解析器	BeautifulSoup(mk,’lxml’)	pip install lxml
lxml的xml解析器	BeautifulSoup(mk,’xml’)	pip install lxml
html5lib解析器	BeautifulSoup(mk,’html5lib’)	pip install html5lib

beautifulSoup類的基本元素

基本元素	說明
Tag	最基本的資訊組織單元，用<>和標明開頭和結尾
Name	…的名字是 p, .name
Attributes	字典形式組織，.attrs
NavigableString	<>…中字串，.string
Comment	標籤內字串的註釋部分，一種特殊的Comment型別

任何存在於HTML語法中的標籤都可以用soup.訪問獲得。當HTML文件中存在多個相同對應內容時，soup.返回第一個

NavigableString可以跨越多個層次

基於bs4庫的HTML內容遍歷方法

< >…< /> 構成了所屬關係，形成了標籤的樹形結構

標籤樹的下行遍歷

屬性	說明
.contents	子節點的列表，將所有兒子節點存入列表
.children	子節點的迭代型別，與.content類似，永遠迴圈遍歷兒子節點
.descendants	子孫節點的迭代型別，包含所有子孫節點，用於迴圈遍歷

BeautifulSoup型別是標籤樹的根節點

標籤樹的上行遍歷

屬性	說明
.parent	節點的父標籤
.parents	節點先輩標籤的迭代型別，用於迴圈遍歷先輩節點

遍歷所有先輩節點，包括soup本身

標籤樹的平行遍歷

屬性	說明
.next_sibling	返回按照HTML文字順序的下一個平行節點標籤
.previous_sibling	返回按照HTML文字順序的上一個平行節點標籤
.next_sibling	迭代型別，返回按照HTML文字順序的後續所有平行節點標籤
.previous_siblings	迭代型別，返回按照HTML文字順序的前續所有平行節點標籤

平行遍歷發生在同一個父節點下的各個節點間

基於bs4庫的HTML格式輸出

prettify()方法

為HTML文字<>及內容增加‘\n’

可用於標籤，方法:< tag >.prettify()

bs4庫的編碼

bs4庫將任何HTML輸入都變成utf-8編碼

python3預設支援編碼是utf-8，解析無障礙

Unit5 資訊標記與提取方法

資訊標記的三種形式

XML	最早的通用資訊標記語言，可擴充套件性好，但繁瑣	Internet上的資訊互動與傳遞
JSON	資訊有型別，適合程式處理，較XML簡潔	移動應用雲端和節點的資訊通訊，無註釋
YAML	資訊無型別，文字資訊比例最高，可讀性好	各類系統的配置檔案，有註釋易讀

資訊提取的一般方法

方法一：完整解析資訊的標記形式，再提取關鍵資訊

需要標記解析器，例如：bs4庫的標籤樹遍歷

優點：資訊解析準確

缺點：提取過程繁瑣，速度慢

方法二：無視標記形式，直接搜尋關鍵資訊

對資訊的文字查詢函式即可

優點：提取過程簡潔，速度較快

缺點：提取結果準確性與資訊內容相關

基於bs4庫的HTML內容查詢方法

<>.find_all(name, attrs, recursive, string, **kwargs)

返回一個列表型別，儲存查詢的結果

recursive：是否對子孫全部檢索，預設True

String：<>content< /> 中字串區域的檢索字串

< tag >(..) 等價於 < tag >.find_all(..)

soup(..) 等價於 soup.find_all(..)

【python爬蟲筆記】網路爬蟲之實戰

Unit7 re庫入門操作符說明例項 . 表示任何單個字元 [ ] 字符集，對單個字元給出取值範圍 [abc]表

【python爬蟲筆記】網路爬蟲之提取

unit 4 BeautifulSoup庫入門 BeautifulSoup庫是解析、遍歷、維護“標籤樹”的功能庫 … 標籤 tag … name(成對出現) attributes(0或多個) beautifulSoup對應一個html/xml文件的全

【python爬蟲筆記】網路爬蟲之規則

WEEK1 Unit 1 Requests庫入門 Requests庫的get()方法 Requests庫的7個主要方法 reqest() 構造一個請求，支撐一下各方法的基礎方法 get() 獲取html網頁的主要方法，對應於http的get head

【Python學習筆記】Pandas庫之DataFrame

數字 .sh image sum() 新增選擇輸出上線工作區 1 簡介 DataFrame是Python中Pandas庫中的一種數據結構，它類似excel，是一種二維表。或許說它可能有點像matlab的矩陣，但是matlab的矩陣只能放數值型值（當然ma

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

【python學習筆記】35：爬蟲基礎和相關產品API(和風天氣)使用例項

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在網站URL後面跟robots.txt一般就可以看到網站允許和禁止爬取的資源。 GET請求獲取響應內容最基本的爬蟲。 import requests ''' 中國旅遊網 /www.cntour.

【Python學習筆記】Coursera之PY4E學習筆記——File

color 學習筆記函數 read mod rom stephen 內容 filename 1、打開文件使用handle=open(filename,mode)打開文件。這一函數將會返回一個handle（應該翻譯為“柄”吧）用來操控文件，參數filename是一個字符串

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

【Python學習筆記】出現亂碼問題之解決方案彙總

【使用notepad++&cmd】 1.無法輸出中文： import urllib2 import cookielib url = "http://www.baidu.com" print "第一種方式" response1 = urllib2.urlopen(u

【Python學習筆記】-APP圖標顯示未讀消息數目

運行讀取 lin 簡單實現 ets fcm 筆記 python語言 lte 以小米手機系統為例，當安裝的某個APP有未讀消息時，就會在該APP圖標的右上角顯示未讀消息的數目。本文主要解說怎樣用Python語言實現圖標顯示未讀消息的數目。首先，還是要用到Python中P

【python學習筆記】6.抽象

位置參數 name 默認參數 [] 順序 fun append 聲明 value 【python學習筆記】6.抽象創建函數: 使用def語句定義函數，不用聲明參數類型，和返回值類型 def function_name(param1, param2):

【Python學習筆記】-冒泡排序、插入排序、二分法查找

判斷 tail fontsize watermark encoding middle 循環 itl 要求原文出處：https://blog.csdn.net/yort2016/article/details/68065728 冒泡排序主要是拿一個數與列表中所有的數進行比

【Python學習筆記】使用Python計算皮爾遜相關系數

自己 pre 求和相關學習筆記 python學習 tip urn pow 源代碼不記得是哪裏獲取的了，侵刪。此處博客僅作為自己筆記學習。 def multipl(a,b): sumofab=0.0 for i in range(len(a)):

【Python學習筆記】Coursera課程《Using Databases with Python》密歇根大學 Charles Severance——Week1 Object Oriented Python課堂筆記

multi rac python3 什麽什麽 req cmd ket ascii碼 charles Coursera課程《Using Databases with Python》密歇根大學 Charles Severance Week1 Object Oriented P

【Python學習筆記】有關包的基本知識

兩種學習 eee 我們模塊組成 learn 目錄 welcome python的包（package）是一個有層次的文件目錄結構。它定義了一個由模塊和子包組成的Python應用程序執行環境。 AAA/ __init__.py bbb.py CCC

【Python學習筆記】Coursera課程《Using Python to Access Web Data》密歇根大學 Charles Severance——Week6 JSON and the REST Architecture課堂筆記

學習 except for num string net none input 網上 Coursera課程《Using Python to Access Web Data》密歇根大學 Week6 JSON and the REST Architecture 13.5 Ja

【Python學習筆記】調整matplotlib的圖例legend的位置

有時預設的圖例位置不符合我們的需要，那麼我們可以使用下面的程式碼對legend位置進行調整。 plt.legend(loc='String or Number', bbox_to_anchor=(num1, num2)) 其中，第一個引數loc，設定它可以遵循以下的表格 Stri

【python學習筆記】切片方法

1、切片說明和簡單用法 python提供了一個切片功能，用這種方法可以很簡單的獲取列表或者元組等的某幾個元素，切片返回的結果的型別和被切片的是保持一致的；基本用法如下： >>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Ja

【python學習筆記】set集合

1、集合說明集合（set）是一個無序不重複元素的集。基本功能包括關係測試和消除重複元素。集合物件還支援 union(聯合)，intersection(交)，difference(差)和 sysmmetric difference(對稱差集)等數學運算。 2、建立一個集合大括號

【python學習筆記】python字典(dict)

1、字典dict的建立 Python內建了字典：dict的支援，dict全稱dictionary，在其他語言中也稱為map，使用鍵-值（key-value）儲存，具有極快的查詢速度。注意字典內各個部分是沒有順序的區別的；其java的map是一樣的，屬於key:value模式，一個簡單的

【python爬蟲筆記】網路爬蟲之提取

unit 4 BeautifulSoup庫入門

beautiful soup庫解析器

基於bs4庫的HTML內容遍歷方法

標籤樹的下行遍歷

標籤樹的上行遍歷

標籤樹的平行遍歷

基於bs4庫的HTML格式輸出

prettify()方法

bs4庫的編碼

Unit5 資訊標記與提取方法

資訊標記的三種形式

資訊提取的一般方法

基於bs4庫的HTML內容查詢方法

相關推薦