006 Python網路爬蟲與資訊提取資訊組織與提取方法

阿新 • • 發佈：2020-11-17

[A] 資訊標記的三種形式

　　　　資訊標記：通過網路爬蟲，我們可以獲取各式各樣的資訊，比如地址資訊，姓名資訊，日期資訊，年代資訊等，這些資訊會很冗雜

　　　　　　　　　通過對資訊的標記，可以幫助我們更好的組織和管理這些資訊

　　　　資訊標記的好處：

　　　　　　　　1. 標記後的資訊可形成資訊組織結構，增加了資訊維度

　　　　　　　　2. 標記後的資訊可用於通訊，儲存和展示

　　　　　　　　3. 標記的結構和資訊一樣具有重要價值

　　　　　　　　4. 標記後的資訊更利於程式的理解和運用

　　　　國際公認的資訊表達種類有三種：

　　　　　　　　1. JSON　　JavaScript Object Notation，即 JavaScript物件標記

　　　　　　　　　　　　鍵和值均必須為字串型別

　　　　　　　　　　基本格式：通過有型別的鍵值對構建的物件

　　　　　　　　　　　　{"name": "汕頭大學"}

　　　　　　　　　　一個鍵對應多個值時：採用陣列格式

　　　　　　　　　　　　{"name": ["汕頭大學", "深圳大學"]}

　　　　　　　　　　可以進行巢狀

　　　　　　　　2. XML　　eXtensible Markup Language，即可拓展的標記性語言

　　　　　　　　　　基本格式：類似於html語言格式

　　　　　　　　　　　　<img arc = "china.jpg" size = 10>這是一張圖片</img>

　　　　　　　　　　無標籤內容時：

　　　　　　　　　　註釋資訊：

　　　　　　　　3. YAML　　YAML Ain't Markup Language

　　　　　　　　　　　　鍵和值都沒有雙引號，即鍵和值都是無型別的

　　　　　　　　　　基本格式：無型別的鍵值對

　　　　　　　　　　　　name: "汕頭大學"

　　　　　　　　　　巢狀關係組成：通過縮排表示

　　　　　　　　　　　　name:

　　　　　　　　　　　　　　newName: "汕頭大學"

　　　　　　　　　　　　　　oldName: "汕頭市扶貧委員會"

　　　　　　　　　　表達並列關係：對應於JSON中的陣列

　　　　　　　　　　　　name:

　　　　　　　　　　　　　　-"汕頭大學"

　　　　　　　　　　　　　　-“汕頭市扶貧委員會”

　　　　　　　　　　資料塊資訊表達：

　　　　　　　　　　　　　　當一個鍵的值為一大段話的時候，需要換行

　　　　　　　　　　　　　　用|表示整塊資料，用 # 添加註釋資訊

　　　　　　　　　　　　text: |　　# 學校介紹

　　　　　　　　　　　　汕頭大學（Shantou University），位於廣東省汕頭市，是教育部、廣東省、李嘉誠基金會三方共建的省部共建大學，

　　　　　　　　　　　　也是全球唯一一所由私人基金會——李嘉誠基金會持續資助的公立大學；入選廣東省“211工程”建設高校、廣東省高水

　　　　　　　　　　　　平大學重點學科建設高校、教育部卓越工程師教育培養計劃、教育部卓越醫生教育培養計劃、國家級大學生創新創業

　　　　　　　　　　　　。。。。。。

　　　　三種資訊標記形式的比較：

　　　　　　　　XML　　最早的通用資訊標記語言，可拓展性好，但是比較繁瑣　　　　　　　　適用於Internet上的資訊互動和傳遞

　　　　　　　　JSON　資訊有型別，適合程式處理(js)，較XML簡潔　　　　　　　　　　　　適用於雲端和節點的資訊通訊，無註釋

　　　　　　　　YAML　資訊無型別，文字資訊比列最高，可讀性好　　　　　　　　　　　　適用於各類系統的配置檔案，有註釋易讀

[B] 資訊提取的方法

　　　　　　資訊提取指的是從標記後的資訊中心提取所關注的內容

　　　　資訊提取的一般方法：

　　　　　　1. 完整的解析資訊的標記形式，再提取關鍵資訊

　　　　　　　　　　XML　　JSON　　YAML

　　　　　　　　　　使用到的標記直譯器，如bs4庫的標籤樹遍歷

　　　　　　　　優點：資訊表達準確

　　　　　　　　缺點：提取過程繁瑣，速度慢，需要程式設計師對所分析資訊的結構和內容有清晰的認識和理解

　　　　　　2. 無視標記形式，直接搜尋關鍵資訊

　　　　　　　　　　通過查詢函式直接查詢文字資訊即可

　　　　　　　　優點：提取過程簡潔，速度快

　　　　　　　　缺點：提取結果與提取內容相關

　　　　　　3. 融合方法：結合形式解析和搜尋方法，提取關鍵資訊

　　　　例項：提取HTML中所有的URL連結

　　　　　　思路：

　　　　　　　　　　1. 搜搜所有的<a>標籤

　　　　　　　　　　2. 解析<a>標籤格式，提取href後的連結內容

　　　　　　示例程式碼：

import requests
from bs4 import BeautifulSoup

# 1. 爬取相關內容
r = requests.get('http://python123.io/ws/demo.html')
demo = r.text

# 2. 煲湯
soup = BeautifulSoup(demo, 'html.parser')
# print(soup)

# 3. 提取HTML中所有的URL連結
for link in soup.find_all('a'):
    print(link.get('href'))
print('列印完了')

View Code

[C] 基於bs4庫的HTML內容查詢方法

　　　　BeautifulSoup類返回的soup物件存在一些方法：

　　　　　　1. soup.find_all(name, attr, recursive, string, **kwargs)

　　　　　　　　　　返回值：列表型別，儲存查詢的結果

　　　　　　　　　　引數：

　　　　　　　　　　　　name: 對標籤型別的檢索字串，如'a', 'p'

　　　　　　　　　　　　　　　　若要檢索多個標籤的name為陣列 ['a', 'p']　　　　　　

　　　　　　　　　　　　　　　　若要查詢文件下的所有標籤，則name為True

　　　　　　　　　　　　　　　　若要檢索更復雜的，name也可以為正則表示式

　　　　　　　　　　　　attrs：對標籤屬性值的檢索字串，可標註屬性檢索

　　　　　　　　　　　　　　　為字串時，直接寫入標籤屬性值即可

　　　　　　　　　　　　　　　為鍵值對時，寫全即可，如id='link1'

　　　　　　　　　　　　recursive: 是否對子孫節點進行搜尋，預設為True

　　　　　　　　　　　　　　　如果為False，表示只在子節點這一層查詢

　　　　　　　　　　　　string: <>..</>標籤之間的檢索字串

　　　　　　　　　　　　　　　如：string='Advanced Python'

　　　　　　　　　　　　　　　　注：該方法只有當標籤中的內容完整的寫在string中時才會搜尋成功，若要部分匹配可使用正則表示式

　　　　　　　　　find_all()方法由於太過於常用，因此存在簡寫方式：

　　　　　　　　　　　　1. <tag>.find_all()　可簡寫為　<tag>()

　　　　　　　　　　　　2. soup.find_all()　可簡寫為　soup()

006 Python網路爬蟲與資訊提取資訊組織與提取方法

[A] 資訊標記的三種形式　　　　資訊標記：通過網路爬蟲，我們可以獲取各式各樣的資訊，比如地址資訊，姓名資訊，日期資訊，年代資訊等，這些資訊會很冗雜

盤點3種Python網路爬蟲過程中的中文亂碼的處理方法

大家好，我是Python進階者。前幾天給大家分享了一些亂碼問題的文章，感興趣的小夥伴可以前往：UnicodeEncodeError: \'gbk\' codec can\'t encode character解決方法，這裡再次給大家祭出網路爬蟲過程中三種中文亂碼

007 Python網路爬蟲與資訊提取中國大學排名爬蟲

[A] 中國大學排名定向爬蟲例項介紹　　功能描述　　　　輸入：大學排名URL連結

Python網路爬蟲與資訊提取_網課筆記1

技術標籤：python 目錄 HTTP協議HTTP協議對資源的操作PATCH和PUT的區別 HTTP協議方法與Requests庫方法一一對應requests.head()requests.post()

Python網路爬蟲與資訊提取MOOC學習——Requests庫網路爬蟲實戰

技術標籤：Python Requests庫網路爬蟲實戰例項一：商品頁面的爬取通過連結獲取商品資訊，通過GET方法獲取連結內容【京東商品URL連結：https://item.jd.com/2967929.html 中國亞馬遜網站商品連結 https://www.

Python網路爬蟲資訊提取mooc程式碼例項

例項一--爬取頁面 import requests url=\"https//itemjd.com/2646846.html\" try: r=requests.get(url) r.raise_for_status()

教你使用Python網路爬蟲獲取菜譜資訊，

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python網路爬蟲的基本流程與準備

基本流程：準備工作：（通過瀏覽器檢視分析目標網頁，學習程式設計基礎規範）

python網路爬蟲 CrawlSpider使用詳解

CrawlSpider 作用：用於進行全站資料爬取 CrawlSpider就是Spider的一個子類如何新建一個基於CrawlSpider的爬蟲檔案

python網路爬蟲 Scrapy中selenium用法詳解

引入在通過scrapy框架進行某些網站資料爬取的時候，往往會碰到頁面動態資料載入的情況發生，如果直接使用scrapy對其url發請求，是絕對獲取不到那部分動態加載出來的資料值。但是通過觀察我們會發現，通過瀏覽器進行

Python網路爬蟲四大選擇器用法原理總結

前幾天小編連續寫了四篇關於Python選擇器的文章，分別用正則表示式、BeautifulSoup、Xpath、CSS選擇器分別抓取京東網的商品資訊。今天小編來給大家總結一下這四個選擇器，讓大家更加深刻的理解和熟悉Python選擇器。

06.Python網路爬蟲之requests模組（2）

06.Python網路爬蟲之requests模組（2）今日內容 session處理cookie proxies引數設定請求代理ip

05.Python網路爬蟲之三種資料解析方式

05.Python網路爬蟲之三種資料解析方式引入回顧requests實現資料爬取的流程指定url

04.Python網路爬蟲之requests模組（1）

04.Python網路爬蟲之requests模組（1）引入 Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。

08.Python網路爬蟲之圖片懶載入技術、selenium和PhantomJS

08.Python網路爬蟲之圖片懶載入技術、selenium和PhantomJS 引入今日概要圖片懶載入

Python網路爬蟲第三彈《爬取get請求的頁面資料》

Python網路爬蟲第三彈《爬取get請求的頁面資料》一.urllib庫　　urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.reque

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

Python網路爬蟲規則之Request庫入門

　　Requests庫是Python的第三方庫，它是目前公認的爬取網頁最好的第三方庫。Requests庫有兩個特點，它很簡單簡單，也很簡潔，甚至用一行程式碼從網頁上獲得相關的資源。Requests庫的更多資訊可以在https://requests

Python網路爬蟲開發實戰使用XPath，xpath的多種用法

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的語言。它最初是用來搜尋XML文件的，但是它同樣適用於HTML文件的搜尋。

一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面

【一、專案背景】有道翻譯作為國內最大的翻譯軟體之一，使用者量巨大。在學習時遇到不會的英語詞彙，會第一時間找翻譯，有道翻譯就是首選。今天教大家如何去獲取有道翻譯手機版的翻譯介面。

006 Python網路爬蟲與資訊提取 資訊組織與提取方法

相關推薦

006 Python網路爬蟲與資訊提取資訊組織與提取方法