Python 網路爬蟲筆記4 -- 資訊標記與提取

阿新 • • 發佈：2018-12-19

Python 網路爬蟲筆記4 – 資訊標記與提取

Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。

一、資訊標記

1、XML：標籤

標籤格式：< name> … < /name>
空標籤：< name />
註釋：<!‐‐ ‐‐>

<person>
	<firstName>Tian</firstName>
	<lastName>Song</lastName>
	<address>
		<streetAddr>中關村南大街5號</streetAddr>
		<city>北京市</city>
		<zipcode>100081</zipcode>
	</address>
	<prof>Computer System</prof><prof>Security</prof>
</person>

2、JSON：有型別的鍵值對key:value

鍵值對單個值：“key” : “value”
鍵值對多個值：“key” : [“value1”, “value2”]
巢狀鍵值對：“key” : {“subkey” : “subvalue”}

{
“firstName” : “Tian” ,
“lastName” : “Song” ,
“address” : {
			“streetAddr” : “中關村南大街5號” ,
			“city” : “北京市” ,
			“zipcode” : “100081”
			} ,
“prof” : [ “Computer System” , “Security” ]
}

3、YAML：無型別鍵值對key:value

鍵值對單個值：key : value
鍵值對多個值： key : #Comment ‐value1 ‐value2
巢狀鍵值對： key : subkey : subvalue

firstName : Tian
lastName : Song
address :
	streetAddr : 中關村南大街5號
	city : 北京市
	zipcode : 100081
prof :
‐Computer System
‐Security

二、資訊提取

１、資訊提取一般方法

形式解析： 完整解析資訊的標記形式，再提取關鍵資訊　　優點：資訊解析準確　　缺點：提取過程繁瑣，速度慢

搜尋： 無視標記形式，直接搜尋關鍵資訊　　優點：提取過程簡潔，速度較快　　缺點：提取結果準確性與資訊內容相關

融合方法： 結合形式解析與搜尋方法，提取關鍵資訊

２、基礎查詢方法：find_all

函式原型：

find_all(name, attrs, recursive, string, **kwargs)

引數：

name：要檢索標籤的名稱字串
attrs：要檢索標籤屬性值的字串，可標註屬性檢索
recursive：是否對子孫全部檢索，預設True
string：<>…</>中字串區域的檢索字串
**kwargs：可選引數

返回： 檢索結果的列表

例項：

import requests
from bs4 import BeautifulSoup

def html_search():
    """
    檢索 HTML 內容，提取資訊
    :return:
    """
    html = requests.get('https://python123.io/ws/demo.html')
    soup = BeautifulSoup(html.text, 'html.parser')

    # 檢索標籤
    print(soup.find_all('a'))
    print(soup.find_all(['a', 'b']))

    # 檢索標籤屬性
    print(soup.find_all('p', 'course'))
    print(soup.find_all(id='link1'))

    # 檢索字串
    print(soup.find_all(string='python'))

if __name__ == '__main__':
    print('running bs:')
    html_search()

< tag>(…) 等價於< tag>.find_all(…) soup(…) 等價於soup.find_all(…)

3、其它查詢方法

方法	說明
<>.find()	搜尋且只返回一個結果，同.find_all()引數
<>.find_parents()	在先輩節點中搜索，返回列表型別，同.find_all()引數
<>.find_parent()	在先輩節點中返回一個結果，同.find()引數
<>.find_next_siblings()	在後續平行節點中搜索，返回列表型別，同.find_all()引數
<>.find_next_sibling()	在後續平行節點中返回一個結果，同.find()引數
<>.find_previous_siblings()	在前序平行節點中搜索，返回列表型別，同.find_all()引數
<>.find_previous_sibling()	在前序平行節點中返回一個結果，同.find()引數

Python 網路爬蟲筆記4 -- 資訊標記與提取

Python 網路爬蟲筆記4 – 資訊標記與提取 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、資訊標記 1、XML：

網路爬蟲_資訊標記與提取（學習筆記）

慕課課程筆記目錄 2.1 方法 2.2 例項 4. 小結 1. 資訊標記 1.1 資訊標記標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

一、資訊標記的三種形式我們需要對資訊進行表記，使得我們能夠理解資訊所反饋的真實含義。標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後的資訊可用於通訊、儲存或

Python 網路爬蟲筆記3 -- Beautiful Soup庫

Python 網路爬蟲筆記3 – Beautiful Soup庫 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、Beau

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

現在隨處可見 https 開頭的網站，urllib2可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/等...如果SSL證書驗證不通過，或者作業系統不信任伺服器的

Python網路爬蟲實戰(三)照片定位與B站彈幕

之前兩篇已經說完了如何爬取網頁以及如何解析其中的資料，那麼今天我們就可以開始第一次實戰了。這篇實戰包含兩個內容。 * 利用爬蟲呼叫Api來解析照片的拍攝位置 * 利用爬蟲爬取Bilibili視訊中的彈幕關於爬蟲呼叫Api這一說法，其實就是通過get或者post請求攜帶著引數，將內容發給對方伺服器，伺服器會

BeautifulSoup 庫 & 資訊標記與提取方法

from bs4 import BeautifulSoup import requests soup = BeautifulSoup('<p>data</p>', 'html.parser') ''' ===BeautifulSoup類的基本元素 <

資訊標記與提取方法（XML、JSON、YAML）

資訊標記實際應用中的原始資料往往是雜亂無章的，為了更加方便組織和儲存各種資訊，以及為計算機處理、傳播訊息提供一種統一的方法。必須對資訊進行一定的標記，資訊標記的特點一般有以下幾點：

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

Python網路爬蟲與資訊提取_爬蟲例項（學習筆記）

慕課課程學習筆記 1. 京東商品頁面的爬取 1.採用get()方法，獲取Response物件； import requests url = 'https://item.jd.com/100000947807.html' r = requests.get(url)

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 4

網路爬蟲之框架 1.scrapy爬蟲框架介紹 1.1.scrapy爬蟲框架介紹安裝方法：簡要地說，Scrapy不是一個函式功能庫，而是一個快速功能強大的網路爬蟲框架。（爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合，是一個半成品，

Python網路爬蟲與資訊提取（五）資訊標記與資訊提取的一般方法

目前國際公認的資訊標記種類共有如下三種：名稱方式例項XML(eXtensible Markup Language)基於HTML的用有名稱與屬性的標籤進行標記的方式<name>...</name> <name /> <!-

Python網路爬蟲與資訊提取Day2

Python網路爬蟲與資訊提取一、導學掌握定向網路資料爬取和網頁解析的基本能力 1、Requests庫：自動爬取HTML頁面，自動向網路提交請求 2、robots.txt：網路爬蟲排除標準 3、Beautiful Soup庫：解析HTML頁面 4、Projects：實戰專案A/B 5、Re庫：正

Python網路爬蟲與資訊提取Day1

網路爬蟲筆記【6】 Python 中的正則表示式模組與應用

python3 內建的 re 模組，包含了正則表示式的操作集。 re 模組的一般使用步驟如下：編譯正則表示式，即使用 compile() 函式將正則表示式的字串形式編譯為一個 Pattern 物件。對目標字串進行匹配，即通過 Pattern 物件提供的一些列方法對文字

python網路爬蟲資訊組織與提取

提取HTML中所有URL連結搜尋到所有<a>標籤解析<a>標籤格式，提取href後的連結內容！ import requests r = requests.get("http://python123.io/ws/demo.html") r.text

Python網路爬蟲與資訊提取（三）bs4入門

Python的requests庫可以幫助我們獲取到大量的資訊，而如果想對這些資訊進行提取與分析，則經常使用beautifulsoup這個用來解析HTML和XML格式的功能庫。 beautifulsoup庫的安裝和requests的流方法一樣，可直接在cmd中輸入pip

Python網路爬蟲與資訊提取（中國大學mooc）

目錄 Python網路爬蟲與資訊提取淘寶商品比價定向爬蟲股票資料定向爬蟲 1. 淘寶商品比價定向爬蟲功能描述目標：獲取淘寶搜尋頁面的資訊理解：淘寶的搜尋介面翻頁的處理技術路線：requests

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

Python 網路爬蟲筆記4 -- 資訊標記與提取

Python 網路爬蟲筆記4 – 資訊標記與提取

一、資訊標記

1、XML：標籤

2、JSON：有型別的鍵值對key:value

3、YAML：無型別鍵值對key:value

二、資訊提取

１、資訊提取一般方法

２、基礎查詢方法：find_all

3、其它查詢方法

相關推薦