Python解析HTML定位元素（內容）HTMLParser demo

阿新 • • 發佈：2019-01-10

前情提要：手上有個報告HTML，要抓取其中的資料內容。HTML檔案內容較多，相同標籤更多，不能更改。所以，選擇按內容定位，套用迴圈和判斷，將需要的資料放入列表list裡。
程式碼呈現：

from HTMLParser import HTMLParser
import HTMLParser

class TitleParser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.handledtags = ['title','body']
        self.processing = None
        self.data = []
 
    def handle_starttag(self,tag,attrs):
        if tag in self.handledtags:
            self.processing = tag
 
    def handle_data(self,data):
        if self.processing:
            self.data.append(data)
 
    def handle_endtag(self,tag):
        if tag == self.processing:
            self.processing = None
 
if __name__ == '__main__':
    fd = open('index.html')
    tp = TitleParser()
    tp.feed(fd.read())
    a =['none']
    for each in tp.data:
        
        if each == 'Statistics:':
            #print each
            i = 0
            a = [each]
            #print a

        if each == 'Parameters:':
            break   

        if a[0] ==  'Statistics:' and ('\n' not in each):
            a.append(each)
            #print each

    print a

結果

['Statistics:', 'Statistics:', 'Mean TTFF:', ' 37.048 ', 'Standard Deviation TTFF:', ' 19.634 ', 'CEP50:', ' 0.522 ', 'CEP95:', ' 1.515 ']

Python解析HTML定位元素（內容）HTMLParser demo

前情提要：手上有個報告HTML，要抓取其中的資料內容。HTML檔案內容較多，相同標籤更多，不能更改。所以，選擇按內容定位，套用迴圈和判斷，將需要的資料放入列表list裡。程式碼呈現： from HTMLParser import HTMLParser import HTMLParse

JavaScript HTML DOM 元素（節點）

enc javascrip item pan 效果 demo 移動元素成功 append 在文檔對象模型 (DOM) 中，每個節點都是一個對象。DOM 節點有三個重要的屬性： 1. nodeName : 節點的名稱 2. nodeValue ：節點的值 3. no

Selenium2+python自動化42-判斷元素（expected_conditions）【轉載】

lis 下拉列表 force eight cee .get matches ise blog 前言經常有小夥伴問，如何判斷一個元素是否存在，如何判斷alert彈窗出來了，如何判斷動態的元素等等一系列的判斷，在selenium的expected_conditions模塊收集

Selenium2+python自動化42-判斷元素（expected_conditions）

.com boolean als ESS 返回 sent XA lis alt 前言經常有小夥伴問，如何判斷一個元素是否存在，如何判斷alert彈窗出來了，如何判斷動態的元素等等一系列的判斷，在selenium的expected_conditions模塊收集了一系列的場景

PYTHON中的語法元素（續）--Python(8)

對於PYTHON語言中的語法元素，我們接著上一章的內容繼續。上一章中我們介紹了PYTHON語言中的語法元素：註釋、縮排、變數、常量、識別符號（命名）。這一章中我們介紹其它的元素：表示式輸入輸出分支迴圈 1、表示式：是在程式中產生或計

html基礎之（內容列表元素，內容嵌套元素。。。。。）完結

html1.內容列表元素有序列表，無序列表，自定義列表無序列表<ul><li></li></ul>有序列表<ol><li</li>></ol> 可以加start="" 在ol裏面加自定義列表<dl>&l

HTML 5常用的交互元素————內容交互元素（2）

bold 一個 detail img summary htm image adding 內容 summary元素是<details>的一個子元素實例1：交互元素<summary>與<details>的結合使用： <!do

python+appium-desktop：安卓（android）7.0以上使用appium無法定位元素（無法refresh）且無法執行指令碼

--解決方法：　　啟動appium時配置中新增： "automationName":"uiautomator2" --擴充套件：　　想支援安卓7.0及以上版本需要滿足一下3點：　　　　1、使用appium-desktop 1.6.3以及以上版本　　　　2、啟動appium的driver配置新增："

Python爬蟲包 BeautifulSoup 學習（十）各種html解析器的比較及使用

BeautifulSoup號稱Python中最受歡迎的HTML解析庫之一，但是這並不是唯一的選擇。解析庫 lxml 這個庫可以用來解析HTML和XML文件，以非常底層的實現而聞名，大部分原始碼都是C語言寫的，雖然學習這東西要花一定的時間，但是它的處理

Python+Selenium - Web自動化測試（二）：元素定位

前言前面已經把環境搭建好了，現在開始使用 Selenium 中的 Webdriver 框架編寫自動化程式碼指令碼，我們常見的在瀏覽器中的操作都會有相對應的類方法，這些方法需要定位才能操作元素，不同網頁的元素也不同，可以根據自己情況選擇使用類方法。下面開始學習元素定位； New一個字尾為.py的P

🔥《手把手教你》系列基礎篇之3-python+ selenium-驅動瀏覽器和元素定位大法（詳細）

1. 簡介上一篇中，只是簡單地一帶而過的說了一些驅動瀏覽器，這一篇繼續說說驅動瀏覽器，然後再說一說元素定位的方法。完成環境的安裝並測試之後，我們對Selenium有了一定的瞭解了，接下來我們繼續驅動瀏覽器做一些基本操作：視窗尺寸設定、網頁截圖、重新整理、前進和後退 2. 視窗尺寸設定在測試過程中，我們

🔥《手把手教你》系列基礎篇之3-python+ selenium自動化測試-驅動瀏覽器和元素定位大法（詳細）

【實用代碼片段】將json數據綁定到html元素（轉）

bsp lac website dex spl his can ace htm jQuery擴展 jQuery.fn.extend({ ‘jsonBind‘:function(json){ var dom=this; dom.find(‘[json-b

Selenium2+python自動化45-18種定位方法（find_elements）【轉載】

技術分享用法 www 方法自動化 wid fin width 組元前言江湖傳言，武林中流傳八種定位，其中xpath是寶刀屠龍，css是倚天劍。除了這八種，其實還有十種定位方法，眼看就快失傳了，今天小編讓失傳已久的定位方法重出江湖！一、十八種定位方法前八種是大家

《selenium2 python 自動化測試實戰》（21）——unittest單元測試框架解析

nbsp add pic post 二維碼 mage ron 而且 aaa unittest是展開自動化測試的基礎——這個框架很重要！我們先自己寫一個測試類： 1、被測試類 Widthget.py： # coding: utf-8class Wi

python--通過xpath相對節點位置查找元素（續）

xpath相對節點元素查找相對節點位置查找方法父節點兄弟節點之前寫過相對父元素及下一個兄弟元素的方法。這次補充一下xpath相對節點位置查找元素的所有方法。例子就不舉了，自己可以去練練。 xpath相對節點查找方法： 1、xpath(‘./ancestor::*‘)查找當前節點

selenium之頁面跳轉導致元素定位失敗（click）

1.產生場景，執行下述語句，click之後，頁面發生變化，原頁面被覆蓋重新開啟新頁面，導致元素定位不到。報錯1：stale element reference: element is not attached to the page document 報錯2：NoSuchFrameExcept

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

div元素（css）定位

1.定位：相對定位（position:relative） <html> <head> <style type="text/css"> h2.pos_left { position:relative; left:-20px }

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python爬蟲之Beautiful Soup解析庫的使用 Beautiful Soup-介紹 Python第三方庫，用於從HTML或XML中提取資料官方：http://www.crummv.com/software/BeautifulSoup/ 安裝：pip install beautifulsoup4

Python解析HTML定位元素（內容）HTMLParser demo

相關推薦