Html 簡單解析

阿新 • • 發佈：2018-11-16

1. Xpath

'''
    xpath 比 BeautifulSoup 快
    nodename	 選取此節點的所有子節點。
    /	        從根節點選取。
    //	        從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
    .	        選取當前節點。
    ..	        選取當前節點的父節點。
    @           選取屬性
    *	        匹配任何元素節點。
    @*	        匹配任何屬性節點。
    node()      配任何型別的節點
'''
xpath 簡單語法示例
//p[@class="story"]  全範圍找 屬性為story的p標籤
//title  全範圍找 title 標籤
在裡面 加一些 簡單的判斷如 and not 
//li[(@_chapterid) and not(@id="video-0")]   找到某屬性，但不存在另一屬性的li標籤,


from lxml import etree

tree = etree.HTML(HTML內容) # 會自動補全 html 標籤

tree.xpath('語法')[0].text   #取到內容

tree.xpath('語法')[0].tar    # 取到節點名            

tree.xpath('//title')[0].getparent().tag       父節點

tree.xpath('//a')[1].get('class')  獲取屬性

tree.xpath('//a')[1].attrib   所有屬性的字典

tree.xpath('//text()')  所有字串的列表    

tree.xpath("string()")  # 所有文字，字串 型別，以單一標籤為分界，如 <br/>

2.正則

正則比 xpath 和 BeautifulSoup 都快
網上太多了，
隨便找一篇:https://www.cnblogs.com/greatfish/p/7572131.html

其中一些方法增加點印象:
在這裡插入圖片描述

Html 簡單解析

1. Xpath ''' xpath 比 BeautifulSoup 快 nodename 選取此節點的所有子節點。 / 從根節點選取。 // 從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。 .

PHP簡單爬蟲&HTML DOM解析器&抓取網站內容

PHP簡單爬蟲&HTML DOM解析器&抓取網站內容簡介為了能簡單地用PHP爬取網站上的內容，用了HTMLDOM解析器簡單地抓取內容。練習下如何地神奇。 simple_html_do

Python2.7 使用HTMLParser簡單解析HTML

import HTMLParser class MyHTMLParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.lin

HTML 簡單了解

第一個縮進防止 .cn color 目前 type 文檔類型技術 HTML 特別的通俗易懂!想學自己制作網頁的,就來我這看看吧! 　　首先我先介紹一下什麽是HTML! HTML是用來描述網頁的一種語言!他結合CSS樣式之後會有非常炫酷的樣式! 　　1.HTML

MySQL配置文件簡單解析

spa art ini update rep 模式 buffer lda reads 1 [mysqld] 2 basedir = /data/mysql 3 datadir = /data/mysqldata 4 tmpd

HTML 簡單日歷制作方法

code src pen lin addclass var line com app 新手一枚，不會寫什麽高大上的博文，一些平時做的小練習，獻醜 1 <!doctype html> 2 <html> 3 4 <

HTML簡單介紹

bold rda -h 輸入框等等而是 sso pop markup 什麽是 HTML？ HTML 是用來描寫敘述網頁的一種語言。 HTML 指的是超文本標記語言 (Hyper Text Markup Language)HTML 不是一種編程語言，而是一種標記

vue指令v-html示例解析

pan 元素 ner lan 模板輸出內容 div bsp target 更新元素的innerHTML，不會作為vue模板編譯，可用組件來代替。在網站上動態渲染任意 HTML 是非常危險的，因為容易導致 xss攻擊。只在可信內容上使用 v-html，永不用在用戶提交的內

web的基礎和html簡單的標簽

新增演變 gin 不同的編寫識別器 tex 單元樣式一、企業應用計算的演變 Host-based Client、server Web-base（是當前用的最多的一種模式）不同的客戶端可以按裝不同的東西，一代比一代更好，但是第三種（BS）是有缺點的，不支持大型

http協議簡單解析

orm 列表 partial 關閉連接 connect 時移通過 ont sat HTTP協議（轉載自牛客網不知名大神） 1.簡介　　HTTP協議（Hyper Text Transfer Protocol，超文本傳輸協議）,是用於從萬維網（WWW:World Wide

[ 轉載 ] Java基礎10--關於Object類下所有方法的簡單解析

zed final關鍵字 pro target 解釋 temp cat turn syn 關於Object類下所有方法的簡單解析類Object是類層次結構的根類，是每一個類的父類，所有的對象包括數組，String，Integer等包裝類，所以了解Object是很有必要

Java之dom4j的簡單解析和生成xml的應用

util 讀寫 pro artifact gettext depend bject sta rgs 　　一、dom4j是一個Java的XML API，是jdom的升級品，用來讀寫XML文件的。dom4j是一個十分優秀的JavaXML API，具有性能優異、功能強大和極其易使

html簡單做查詢刪除

項目 lan ima bsp htm img .com 視頻查詢下載視頻+項目鏈接:https://pan.baidu.com/s/1jUld3-Nqm3fUAzFSX8kjlQhtml簡單做查詢刪除

mysql進階簡單解析

軟件 pro kernel username mysql數據恢復 apach reserve 完全備份 sta mysql進階 1.mysql配置文件 mysql的配置文件為/etc/my.cnf配置文件查找次序：若在多個配置文件中均有設定，則最後找到的最終生效 /etc/

html簡單的登陸註冊代碼的實現

req 簡單的 text eth res class submit itl 用戶 <html><head><title>登陸頁面</title></head><form action="login_conf.

簡單解析hibernate中的一對多關係

什麼是關聯(association) 1.1 關聯指的是類之間的引用關係。如果類A與類B關聯，那麼被引用的類B將被定義為類A的屬性。例如: public class A{ private B b = new B; public A(){} } 1.2 關聯的分類：關聯可以分為一對一

簡單解析request.getParameter(String arg0)方法和request.getAttribute()方法的區別

1.request.getParameter(String arg0)方法當兩個web元件為連結關係時,被連結元件通過getParameter()方法來獲得引數(獲取Http提交過來的資料如表單) 例: <%@ page language="java" import="jav

java簡單解析json

一、什麼是JSON？ JSON是一種取代XML的資料結構,和xml相比,它更小巧但描述能力卻不差,由於它的小巧所以網路傳輸資料將減少更多流量從而加快速度。 JSON就是一串字串只不過元素會使用特定的符號標註。 {} 雙括號表示物件 [] 中括號表示陣列 "" 雙引號內是屬性或值

mjpg-streamer簡單解析

前言正文主函式資料採集資料傳輸前言相信很多搞過ARM攝像頭的，都會想著怎麼把攝像頭資料繼續傳出去，做個遠端監控什麼的。記得當初

在8位微控制器上實現JSON資料的簡單解析（微控制器解析JSON）

https://blog.csdn.net/PZ0605/article/details/56017141 由於在一些低配的微控制器上面不能直接使用C提供的系統庫，專案中又需要解析伺服器返回的JSON資料，以下程式碼可以簡單的解析出JSON資料中的key: // // main.

Html 簡單解析

1. Xpath

2.正則

相關推薦