BeautifulSoup 庫 & 資訊標記與提取方法

阿新 • • 發佈：2018-11-07

from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup('<p>data</p>', 'html.parser')


'''
===BeautifulSoup類的基本元素 
<p class=“title”> … </p>
基本元素            說明 
Tag             標籤，最基本的資訊組織單元，分別用<>和</>標明開頭和結尾 
Name            標籤的名字，<p>…</p>的名字是'p'，格式：<tag>.name 
Attributes      標籤的屬性，字典形式組織，格式：<tag>.attrs 
NavigableString 標籤內非屬性字串，<>…</>中字串，格式：<tag>.string 
Comment         標籤內字串的註釋部分，一種特殊的Comment型別
''' 


'''
===bs4庫的遍歷功能
.contents .children .descendants  下行遍歷
.parent .parents  上行遍歷
.next_sibling .previous_sibling .next_siblings .previous_siblings  平行遍歷
'''

'''
            HTML基本格式
               <html>
<head>                      <body>
<title>             <p>             <p>
               <b>      <a>      <a>    <>…</>
        構成了所屬關係，形成了標籤的樹形結構
''' 



# ===資訊標記與提取方法

'''
===三種形式

==XML 
<person> 
    <firstName>Jiawei</firstName> 
    <lastName>Yan</lastName> 
    <address> 
        <streetAddr>江夏區藏龍島</streetAddr> 
        <city>武漢市</city> 
        <zipcode>430205</zipcode> 
    </address> 
    <prof>Finance</prof><prof>Innovation</prof> 
</person>

==JSON 
{
“firstName”:“Jiawei”, 
“lastName” :“Yan”, 
“address”  :{ 
                “streetAddr” :“江夏區藏龍島”, 
                “city”       :“武漢市”, 
                “zipcode”    :“430205”
               }, 
“prof”     :[ “Finance”,“Innovation”]
}

==YAML
firstName:Jiawei 
lastName :Yan 
address : 
    streetAddr :江夏區藏龍島 
    city      :武漢市 
    zipcode    :430205 
prof    : 
‐Finance 
‐Innovation


===比較
XML  最早的通用資訊標記語言，可擴充套件性好，但繁瑣   Internet上的資訊互動與傳遞
JSON 資訊有型別，適合程式處理(js)，較XML簡潔     移動應用雲端和節點的資訊通訊，無註釋
YAML 資訊無型別，文字資訊比例最高，可讀性好      各類系統的配置檔案，有註釋易讀
''' 


'''
===方法

方法一：完整解析資訊的標記形式，再提取關鍵資訊 
XML JSON YAML
需要標記解析器，例如：bs4庫的標籤樹遍歷
優點：資訊解析準確 
缺點：提取過程繁瑣，速度慢

方法二：無視標記形式，直接搜尋關鍵資訊 
搜尋
對資訊的文字查詢函式即可
優點：提取過程簡潔，速度較快 
缺點：提取結果準確性與資訊內容相關
'''

# <>.find_all(name, attrs, recursive, string, **kwargs)
# name : 對標籤名稱的檢索字串
# attrs: 對標籤屬性值的檢索字串，可標註屬性檢索
# recursive: 是否對子孫全部檢索，預設True
# string: <>…</>中字串區域的檢索字串

for link in soup.find_all('a'):
    print(link.get('href'))

BeautifulSoup 庫 & 資訊標記與提取方法

from bs4 import BeautifulSoup import requests soup = BeautifulSoup('<p>data</p>', 'html.parser') ''' ===BeautifulSoup類的基本元素 <

資訊標記與提取方法（XML、JSON、YAML）

資訊標記實際應用中的原始資料往往是雜亂無章的，為了更加方便組織和儲存各種資訊，以及為計算機處理、傳播訊息提供一種統一的方法。必須對資訊進行一定的標記，資訊標記的特點一般有以下幾點：

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

一、資訊標記的三種形式我們需要對資訊進行表記，使得我們能夠理解資訊所反饋的真實含義。標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後的資訊可用於通訊、儲存或

Python 網路爬蟲筆記4 -- 資訊標記與提取

Python 網路爬蟲筆記4 – 資訊標記與提取 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、資訊標記 1、XML：

網路爬蟲_資訊標記與提取（學習筆記）

慕課課程筆記目錄 2.1 方法 2.2 例項 4. 小結 1. 資訊標記 1.1 資訊標記標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後

Python網路爬蟲與資訊提取（五）資訊標記與資訊提取的一般方法

目前國際公認的資訊標記種類共有如下三種：名稱方式例項XML(eXtensible Markup Language)基於HTML的用有名稱與屬性的標籤進行標記的方式<name>...</name> <name /> <!-

資訊標記與資訊提取

1.資訊標記的三種形式標記後的資訊可形成資訊組織結構增加了資訊維度標記後的資訊可用於通訊、儲存或展示標記的結構與資訊一樣具有重要價值標記後的資訊更利於程式理解和運用三種形式：XML、JSON、YAML 2.HTML的資訊標記 H:hyper T：text M:

信息組織與提取方法

處理 range 運行註釋北京 main ever children -c 信息組織與提取方法 ? 標記後的信息可形成信息組織結構，增加了信息的維度 ? 標記的結構與信息一樣具有重要價值 ? 標記後的信息可用於通信、存儲或展示 ? 標記後的信息更利於程序理解和應用 HT

python網絡爬蟲與信息提取——5.信息組織與提取方法

num odin yaml exce 基於 blog all plt markup 1.信息標記的三種形式（1）XML（eXtensible Markup Language）可擴展標記語音 <name> … </name>有內容的標簽<nam

第07章常用類庫API_03_StringBuffer原始碼分析與常用方法

在實際開發當中，我們經常會使用到字串連線的操作，如果用String來操作，則使用“+”號完成字串的連線操作。使用String連線字串，程式碼效能會非常低，應為String的內容不可改變，解決這個問題的方法是使用StringBuffer。 St

資訊組織與提取

一、資訊標記的三種方法資訊的標記：標記後的資訊可形成資訊組織結構，增加資訊維度標記後的資訊可以用於通訊、儲存或展示標記的結構與資訊一樣具有重要的價值標記後的資訊更利於程式理解和應用資訊標記的三種形式：XML JSON YAML XML:標籤

python網路爬蟲資訊組織與提取

提取HTML中所有URL連結搜尋到所有<a>標籤解析<a>標籤格式，提取href後的連結內容！ import requests r = requests.get("http://python123.io/ws/demo.html") r.text

基於標題分類的文章主題句識別與提取方法

基於標題分類的主題句提取方法基於標題分類的主題句提取方法可描述為: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作為主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高

pyhont---信息的爬取與提取---bs4，BeautifulSoup，re庫

元組簽名 mpi 操作一個轉義字符方法 ext tar pyhont---信息的爬取與提取---bs4，BeautifulSoup，re庫用於對獲取到的頁面文本進行提取 BeautifulSoup庫的理解：BeautifulSoup庫是解析、遍歷、維護"標簽樹"的

python網路爬蟲與資訊採取之解析網頁（三）---- BeautifulSoup庫的導航樹例項

上篇我們講到了通過標籤的名稱和屬性來查詢標籤的findAll（),本篇將講解如何通過標籤在文件中的位置進行查詢------導航樹一篇文章，可以將其標籤分為子標籤，父標籤和兄弟標籤。而導航樹的功能就是

pyhont---信息的爬取與提取---requests庫

信息 -- header esp 修改 bsp sts 字符串 cep python --requests能爬取網頁的信息 Requests庫的七個主要方法request(method.url.**kwargs) 構造一個請求，支撐以下各方法的基礎方法　　get() 獲取H

ssh整合思想 Spring與Hibernate和Struts2的action整合調用action添加數據庫使用HibernateTemplate的save(entity)方法

all 自動註意 pool 監聽聲明屬性 struts2 技術 utf-8 自動調用Spring的bean.xml配置文件需要web.xml啟動文件代碼如下： <?xml version="1.0" encoding="UTF-8"?> <web

java.sql.SQLException: Field 'id' doesn't have a default value（用eclipse操作數據庫時報了這種奇怪的錯誤）的原因與解決方法

sql microsoft java except body class 操作數解決方法 family 1、錯誤原因由於id在數據庫表中是作為主鍵，但是在插入的過程中，沒有給予數值，並且沒有讓其自增 2、解決辦法修改數據庫表中的id，讓

【資訊科技】【2014.01】智慧交通監控中運動目標檢測與跟蹤方法研究

本文為日本大學（作者：XiaofengLU）的博士論文，共143頁。視訊監控已成為近年來影象處理和計算機視覺技術的一個重要研究領域，它嘗試從影象序列中檢測、識別、跟蹤某些物體，並瞭解、描述目標的行為。視訊交通監控系統為智慧交通系統（ITS）的交通控制和管理提供最有效的交通訊息，為

缺失資料的Bootstrap與Jackknife方法：《Statistical Analysis with Missing Data》習題5.1 & 5.2

一、題目 5.1 本題基於之前習題1.6產生關於 ( Y 1

BeautifulSoup 庫 & 資訊標記與提取方法

相關推薦