Python 用HTMLParser解析HTML檔案

阿新 • • 發佈：2019-02-08

HTMLParser是Python自帶的模組，使用簡單，能夠很容易的實現HTML檔案的分析。
本文主要簡單講一下HTMLParser的用法.

使用時需要定義一個從類HTMLParser繼承的類，重定義函式：

handle_starttag( tag, attrs)
handle_startendtag( tag, attrs)
handle_endtag( tag)

來實現自己需要的功能。

tag是的html標籤，attrs是 (屬性，值)元組(tuple)的列表(list).
HTMLParser自動將tag和attrs都轉為小寫。

下面給出的例子抽取了html中的所有連結：

from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
 
    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag
        if tag == "a":
            if len(attrs) 
 == 0: pass
            else:
                for (variable, value)  in attrs:
                    if variable == "href":
                        self.links.append(value)
 
if __name__ == "__main__":
    html_code = """
    <a href="www.google.com"> google.com</a>
    <A Href="www.pythonclub.org"> PythonClub </a>
    <A HREF = "www.sina.com.cn"> Sina </a>
    """ 

    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)

輸出為：

['www.google.com', 'www.pythonclub.org', 'www.sina.com.cn']

如果想抽取圖形連結

<img src='http://www.google.com/intl/zh-CN_ALL/images/logo.gif' />

就要重定義 handle_startendtag( tag, attrs) 函式

Python 用HTMLParser解析HTML檔案

HTMLParser是Python自帶的模組，使用簡單，能夠很容易的實現HTML檔案的分析。本文主要簡單講一下HTMLParser的用法. 使用時需要定義一個從類HTMLParser繼承的類，重定義函式： handle_starttag( tag, attrs) handle_starten

使用Python的HTMLParser解析HTML文字

使用Python的HTMLParser解析HTML文字一. HTMLParser HTMLParser是python用來解析html的模組。它可以分析出html裡面的標籤、資料等等，是一種處理html的簡便途徑。 HTMLParser採用的是一種

用HTMLParser解析html時報錯：No module named ‘htmlentitydefs‘

ror python links href and htm ref over request python3.6用HTMLParser解析html時報錯No module named ‘htmlentitydefs‘或No module named ‘markupbase‘

python 極好用的解析 html 標簽的模塊 - BeautifulSoup

圖片 baidu base ... value data 取反 lin tex 　　記錄下各種使用姿態　　測試的 html 代碼： <html> <head> <title>Test</t

【Python】beautifusoup解析HTML並將資料寫入檔案

Python版本：3.6 IDE：PyCharm 1.解析HTML(這裡以www.baidu.com為例) headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/5.0 (Windo

010 python介面 bs4解析html

''' 時間：2018/11/03 功能：bs4解析html 目錄: 一: 學習使用 1 官網介紹 2 安裝Beautiful Soup 3 四種物件 (1) 全部

初觸Python,關於pyquery解析html（百度貼吧）

一直聽同事說Python是個神奇的語言，上週在逛知乎的時候深受這個話題的啟發。能利用爬蟲技術做到哪些很酷很有趣很有用的事情？先是說到IDE的選擇,作為python新人,雖然知道mac終端自帶Python,但在一番谷歌百度之後,還是選擇了PyCharm 。理由大概是 PyCharm比

用JDOM解析XML檔案時如何解決中文問題？如何解析？

1 import javax.xml.parsers.DocumentBuilder; 2 import javax.xml.parsers.DocumentBuilderFactory; 3 import javax.xml.transform.OutputKeys; 4 import jav

python 使用ElementTree解析xml檔案

以country.xml為例,內容如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</ran

dump解析入門-用VS解析dump檔案進行排障

突然有一天部署在伺服器的一個應用掛掉了，沒辦法只能進入伺服器開啟【事件檢視器】檢視下，好不容易找到了開啟後一臉懵逼事件檢視器查到的內容根本對我們排障沒有任何作用。在這個時候如果有對應的dump檔案就能派上用場了，只要有dump檔案就能查到應用掛掉那刻的一手情報，可能有人

poi用jdom解析xml檔案方式定製Excel模板

java程式碼 package com.td.store.utils; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStream; import java

centos7 C++ 用 bmplib解析bmp檔案

下載地址：https://download.csdn.net/download/sz76211822/10800716 #ifndef __PARSE_BMP__ #define __PARSE_BMP__ #include <sys/types.h> #include <

python3用PyPDF2解析pdf檔案，用正則匹配資料

import PyPDF2 import re pdf_file = open('xxx.pdf', mode='rb') read_pdf = PyPDF2.PdfFileReader(pdf_file) # 獲取pdf檔案的所

解決PyCharm下python使用XPath解析html，獲取文字時中文為亂碼問題

最近在學習XPath解析庫，但是獲取中文文字時總是亂碼，網上看了些教程，然並卵，最後只好自己解決：文字檔案html.txt如下： <p class="name"> <a href="/films/1297" title="肖申克的救贖" d

如何MSHTML名稱空間解析HTML檔案(MSHTML::IHTMLDocument2Ptr 提示錯誤)

1.建立Win32或MFC工程. 2.在預編譯或需要使用MSHTML名稱空間的標頭檔案中新增以下語句： #include <atlbase.h> #include <Mshtml.h> #import <mshtml.tlb

使用python程式設計，解析PE檔案（全過程）

1、VS2017下安裝python環境。 2、搜尋“python解析PE，脫殼，破解”。上網相似教程很多，反覆看、反覆熟悉。 3、下載一個python庫：pefile 。可參考：https://github.com/erocarrera/pefile/releases?a

如何MSHTML名稱空間解析HTML檔案

1.建立Win32或MFC工程. 2.在預編譯或需要使用MSHTML名稱空間的標頭檔案中新增以下語句： #include <atlbase.h> #include <Mshtml.h> #import <mshtml.t

Python 用win32讀取excel檔案的奇葩報錯

from datetime import datetime import urllib import win32com.client as win32 import sys import codecs

用DOM解析XML檔案並存入mysql資料庫

對於一個數據量大、複雜的xml檔案，要進行解析並且存入資料庫。首先要對xml檔案的dom結構有所瞭解，並進行分析，然後獲取自己想要的資料，之後進行資料的儲存。接下來說明一下具體的步驟和方法。

手把手教學 Android用jsoup解析html

1.jsoup介紹很多時候，我們需要從各種網頁上面抓取資料，而jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。 2.使用場景下面是一張關於美食的截圖，可以留意到

Python 用HTMLParser解析HTML檔案

相關推薦