信息組織與提取方法

阿新 • • 發佈：2018-02-14

處理 range 運行註釋北京 main ever children -c

信息組織與提取方法

? 標記後的信息可形成信息組織結構，增加了信息的維度

? 標記的結構與信息一樣具有重要價值

? 標記後的信息可用於通信、存儲或展示

? 標記後的信息更利於程序理解和應用

HTML的信息標記：

? 文本，超文本(聲音、圖像、視頻)

HTML通過預定義的<>...</>標簽形式組織不同類型的信息。

信息標記的三種形式:

? XML、JSON、YMAL

XML(eXtensible Markup Language)：

技術分享圖片

空元素的縮寫形式：<img src = "china.jpg" size = "10"/>

註釋書寫形式：

XML實例：

技術分享圖片

JSON(JaveScript Object Notation):

有類型的鍵值對 key : value

技術分享圖片

多值用[ , ]組織

鍵值對嵌套用{ , }

"name" : {

? "newName" : "北京理工大學",

? "oldName" : "延安自然科學院"

? }

JSON實例:

技術分享圖片

YAML(YMAL Ain‘t Markup Language) :

無類型鍵值對 key : value

技術分享圖片

縮進表達所屬關系

name :

? newName : 北京理工大學

? oldName : 延安自然科學院

減號( - )表達並列關系

name :

? -北京理工大學

? -延安自然科學院

|表達整塊數據 #表示註釋

key : value

key : #Comment

-value1

-value2

key :

? subkey : subvalue

YAML實例：

技術分享圖片

三種信息標記形式的比較：

XML : 最早的通用信息標記語言，可擴展性好，但繁瑣

? Internet上的信息交互與傳遞

JSON : 信息有類型，適合程序處理(js)，較XML簡潔

? 移動應用雲端和節點的信息通信，無註釋

YMAL : 信息無類型，文本信息比例最高，可讀性好

? 各類系統的配置文件，有註釋易讀

信息提取：從標記後的信息中提取所關註的內容

方法一：完整解析信息的標記形式，再提取關鍵信息

XML、JSON、YAML，需要標記解析器，例如：bs4庫的標簽樹遍歷

? 優點：信息解析準確；

? 缺點：提取過程繁瑣，速度慢；

方法二：無視標記形式，直接搜索關鍵信息

搜索對信息的文本查找函數即可

? 優點：提取過程簡介，速度較快；

? 缺點：提取結果準確性與信息內容相關；

融合方法：結合形式解析與搜索方法，提取關鍵信息

XML、JSON、YAML、搜索，需要標記解析器及文本查找函數

實例：提取HTML中所有的URL鏈接

? 思路：搜索到所有的<a>標簽；

? 解析<a>標簽格式，提取herf後的鏈接內容；

>>> from bs4 import BeautifulSoup            
>>> import requests          
>>> r = requests.get("http://python123.io/ws//demo.html
>>> demo = r.text            
>>> soup = BeautifulSoup(demo,‘html.parser‘)
>>>for link in soup.find_all(‘a‘):
        print(link.get(‘href‘))

運行結果：

技術分享圖片

<>.find_all (name,attrs,recursive,string,**kwargs)

返回一個列表類型，存儲查找的結果

? name：對標簽名稱的檢索字符串；

? attrs ：對標簽屬性值的檢索字符串，可標註屬性檢索；

? recursive : 是否對子孫全部檢索，默認True；

? string : <>...</>中字符串區域的檢索字符串。

>>> soup.find_all(‘a‘)
             
[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>, <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]
>>> soup.find_all([‘a‘,‘b‘])
             
[<b>The demo python introduces several python courses.</b>, <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>, <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]

? <tag>(..)等價於<tag>.find_all(..)

? <soup>(..)等價於<soup>.find_all(..)

技術分享圖片

實例：“大學排名定向爬蟲”

? 輸入：大學排名URL鏈接

? 輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）

? 技術路線：request-bs4

? 定向爬蟲：僅對輸入URL進行爬取，不擴展爬取。

網址：http://www.zuihaodaxue.com/FieldSCI2016.html

#University rank li.py 
import requests
from bs4 import BeautifulSoup
import bs4
 
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find(‘tbody‘).children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr(‘td‘)
            ulist.append([tds[0].string, tds[1].string, tds[3].string])
 
def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名","學校名稱","總分"))
    for i in range(num):
        u=ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))
     
def main():
    uinfo = []
    url = ‘http://www.zuihaodaxue.com/FieldSCI2016.html‘
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

運行結果：

技術分享圖片

爬取2016年世界大學工科排名前二十：

網頁鏈接：http://www.zuihaodaxue.com/FieldENG2016.html

#University Rank
import requests
from bs4 import BeautifulSoup
import bs4
 
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find(‘tbody‘).children:
        if isinstance(tr, bs4.element.Tag): #
            tds = tr(‘td‘)
            ulist.append([tds[0].string, tds[1].string, tds[3].string])
 
def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","學校名稱","總分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
     
def main():
    uinfo = []
    url = ‘http://www.zuihaodaxue.com/FieldENG2016.html‘
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

結果截圖：

技術分享圖片

信息組織與提取方法

處理 range 運行註釋北京 main ever children -c 信息組織與提取方法 ? 標記後的信息可形成信息組織結構，增加了信息的維度 ? 標記的結構與信息一樣具有重要價值 ? 標記後的信息可用於通信、存儲或展示 ? 標記後的信息更利於程序理解和應用 HT

python網絡爬蟲與信息提取——5.信息組織與提取方法

num odin yaml exce 基於 blog all plt markup 1.信息標記的三種形式（1）XML（eXtensible Markup Language）可擴展標記語音 <name> … </name>有內容的標簽<nam

信息安全與人工智能

人工智能信息安全機器學習 1. 前言人工智能（即Artificial Intelligence，簡稱AI）是計算機科學研究領域的重要方向，其起源直接可以追溯至現代計算機未正式誕生之前，但其真正具有廣泛實用價值應看作為21世紀的初葉，可以預見在未來的若幹年中，隨著計算機硬件工藝極大的提高、

JVM--心得 OOM時的堆信息獲取與分析

共享 tab sleep reat 項目 nts 如果學習字符 JVM的框架知識了解之後，實際的項目裏發生了OOM異常的話，怎麽獲取以及分析異常信息後怎麽分析呢。這裏稍微做一下歸納。第一步，首先通過下面兩個方法的任何一種，把發生OOM時的heap信息dump下來。有兩個

Java反射機制能夠獲取的信息，與應用

rri 代理 pan [] reflect 語言子類 list tro 一、什麽是Java反射機制？【1】反射機制是在運行狀態中，對於任何一個類，都能夠知道這個類的所有屬性和方法；【2】對於任意一個對象，都能夠調用它的任意一個屬性和方法；像這種動態獲取類的信

JPEG圖片擴展信息讀取與改動

支持 track statistic nts roi als length false () 近日項目中須要用到往jpg圖片中寫入信息（非水印），經調研發現Andr

Windows Server 2016-查詢FSMO角色信息的三種方法

use .com strong http bre 關系顯示 dns 打開 FSMO操作主機角色有五種：林範圍操作主機角色有兩種，分別是架構主機角色（Schema Master）和域命名主機角色（Domain Naming Master）；及域範圍操作主機角色三種，分別

2017-2018-2 20155233『網絡對抗技術』Exp6：信息收集與漏洞掃描

ip地址查點 inux 技術分享查詢工具 xpl 服務挖掘域名服務器通過DNS和IP挖掘目標網站的信息 whois查詢：用來進行域名註冊信息查詢，以得到3R註冊信息，包括註冊人的名字、組織、城市等信息。（進行whois查詢時去掉www等前綴，因為註冊域名時通常會

20155310 Exp6 信息收集與漏洞掃描

rar mes 需要沒有 ber aux tracert advance 包括 20155310 Exp6 信息收集與漏洞掃描基礎問題回答 1.哪些組織負責DNS，IP的管理。頂級的管理者是Internet Corporation for Assigned Names

BeautifulSoup 庫 & 資訊標記與提取方法

from bs4 import BeautifulSoup import requests soup = BeautifulSoup('<p>data</p>', 'html.parser') ''' ===BeautifulSoup類的基本元素 <

coreldraw2018最新版信息功能與特點大全

人工智最適 graphic 完全全面控件 ref 陰影縮放 1.coreldraw功能軟件的開發和設計完全基於人工智能和機器學習的最新發展。形式自由的草圖會在啟用觸摸功能的設備上轉換為精準的矢量曲線。增強節點、手柄和矢量預覽使用增強的預覽、節點和手柄功能，可以更有

信息熵與TF-IDF 學習筆記

art left 互信 org 信息論調整機器單獨 ray 自信息量評價一個事件發生所包含的信息量大小，設獨立事件x、y發生概率為p(x)、p(y)，包含信息量為I(x)、I(y) 預設信息量的大小一定大於0，並且事件發生的概率越大，所包含的信息量越小，可知 \

資訊組織與提取

一、資訊標記的三種方法資訊的標記：標記後的資訊可形成資訊組織結構，增加資訊維度標記後的資訊可以用於通訊、儲存或展示標記的結構與資訊一樣具有重要的價值標記後的資訊更利於程式理解和應用資訊標記的三種形式：XML JSON YAML XML:標籤

python網路爬蟲資訊組織與提取

提取HTML中所有URL連結搜尋到所有<a>標籤解析<a>標籤格式，提取href後的連結內容！ import requests r = requests.get("http://python123.io/ws/demo.html") r.text

信息安全與Linux系統

參考下一步關於效果免費電影無法 ctr 進行相信很多小夥伴都看過黑客帝國裏面的那些由代碼組成的神奇界面，也有很多人也向往著有一天能做一個黑客，當然不是為了做壞事，只是想和電影裏面的黑客一樣拉風，我就是這麽其中一個（假如有一天能實現這個願望我想我做夢都能笑醒，）

資訊標記與提取方法（XML、JSON、YAML）

資訊標記實際應用中的原始資料往往是雜亂無章的，為了更加方便組織和儲存各種資訊，以及為計算機處理、傳播訊息提供一種統一的方法。必須對資訊進行一定的標記，資訊標記的特點一般有以下幾點：

基於標題分類的文章主題句識別與提取方法

基於標題分類的主題句提取方法基於標題分類的主題句提取方法可描述為: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作為主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

一、資訊標記的三種形式我們需要對資訊進行表記，使得我們能夠理解資訊所反饋的真實含義。標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後的資訊可用於通訊、儲存或

Linux下用於查看系統當前登錄用戶信息的4種方法

歷史信息 don warning ebo 使用加載 var utm 史記 1.使用w命令查看登錄用戶正在使用的進程信息 w命令用於顯示已經登錄系統的用戶的名稱，以及他們正在做的事。該命令所使用的信息來源於/var/run/utmp文件。w命令輸出的信息包括：用戶名稱用

20165319 Exp6 信息收集與漏洞掃描

open auxiliary try 電腦圖片域名服務器 nmap 系統識別 .com 實驗過程 whois 在虛擬機Kali的終端輸入命令：whois gitee.com，查詢碼雲的域名註冊信息。 dig或nslookup域名查詢在kali終端輸入dig 網址或n

信息組織與提取方法

信息組織與提取方法

HTML的信息標記：

信息標記的三種形式:

XML(eXtensible Markup Language)：

JSON(JaveScript Object Notation):

YAML(YMAL Ain‘t Markup Language) :

三種信息標記形式的比較：

信息提取：從標記後的信息中提取所關註的內容

方法一：完整解析信息的標記形式，再提取關鍵信息

方法二：無視標記形式，直接搜索關鍵信息

融合方法：結合形式解析與搜索方法，提取關鍵信息

<>.find_all (name,attrs,recursive,string,**kwargs)

實例：“大學排名定向爬蟲”

相關推薦