xpath解析html標簽

阿新 • • 發佈：2018-04-10

odin 單元 xpath AD filename fault imp default 創建

最近忙一個需求：把一個字符串形式的html文檔轉化成excel。

分解需求：

① 實現語言 ———— python

② html解析 ———— 用 lxml庫的etree工具，xpath方式解析文檔樹

③ 寫excel ———— 用 xlwt庫寫excel

代碼片段：

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree

# 解析html字符串的方法

def change(data):
html = etree.HTML(str(data))
divs = html.xpath(‘//div[@class="content"]/div‘)
img_top = divs[0].xpath(‘./img/@src‘)
p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

... ...

# 寫excel的方法

def write_excel(filename, data):
book = xlwt.Workbook() #創建excel對象
sheet = book.add_sheet(‘sheet1‘) #添加一個表
c = 0 #保存當前列
for d in data: #取出data中的每一個元組存到表格的每一行
for index in range(len(d)): #將每一個元組中的每一個單元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel

xpath解析html標簽

xpath解析html標簽

odin 單元 xpath AD filename fault imp default 創建最近忙一個需求：把一個字符串形式的html文檔轉化成excel。分解需求： ① 實現語言 ———— python ② html解析 ———— 用 lxml

python 極好用的解析 html 標簽的模塊 - BeautifulSoup

圖片 baidu base ... value data 取反 lin tex 　　記錄下各種使用姿態　　測試的 html 代碼： <html> <head> <title>Test</t

html 文本解碼 xpath 獲取html標簽

sca () html nes cap pre ide pat imp import htmlimport etree url_h2 = selector.xpath("//a[@_stat=‘video:poster_v‘]/../h2")[0]url_div = sel

HTML標簽文本內容正常顯示而不被解析

方式 col html標簽 htm display 直接 microsoft 轉義 post 要想html標簽在html頁面正常顯示而不被解析：最簡單的方式有3種　　1，用xmp標簽包裹內容，代碼如下：　　 1 <xmp><a>

五月六日 HTML標簽超鏈接、圖片屬性和列表

one ima 網頁沖突 abc 今天 jpg self blank 今天的內容主要是HTML標簽的超鏈接圖片屬性列表的用法一、超鏈接，錨點和下載。（1）超鏈接　　　　<a href="URL" targe="_blank">網站名</a>

html的meta總結，html標簽中meta屬性使用介紹

ida keyword 時間格式 robot 時間日文 for lba com 來源：http://www.haorooms.com/post/html_meta_ds 引子之前的我的博客中對於meta有個介紹，例如：http://www.haorooms.com/

html標簽溢出問題

log utf-8 float ice -- height charset cnblogs gin 一個巨簡單的坑，記錄一下:class=index的div沒有padding,margin，但上方迷之懸空。 <head> <meta charset

python 全棧 web基礎 (二) html標簽

field 塊級元素個數 eth 更改上下無序列表 pos uno 一、html是什麽？超文本標記語言（Hypertext Markup Language，HTML）通過標簽語言來標記要顯示的網頁中的各個部分。一套規則，瀏覽器認識的規則瀏覽器按順序渲染網頁文件，

HTML標簽類型及特點

如果 html ... margin 塊元素 put spl 比較 str 關鍵詞：塊級元素行級元素行內塊元素一、概述 HTML（Hyper Text Markup Language ）作為一種標記語言，網頁所有的內容均書寫在標簽內部，標簽

用WSDL4J解析types標簽中的內容

write cef 問題 reader tag item init html nts WSDL4J是一種用來解析WSDL文本的常用工具。但網絡上用WSDL4J來解析wsdl文檔complexType標簽中內容的問題一大堆也沒有有效的解決方法。今天在我“遍歷”wsdl4

HTML標簽列表

orm tput element 分組 details tex 映射標簽媒體 HTML參考手冊按功能類別排列 New : HTML5 中的新標簽。標簽描寫敘述  定義凝視。 <!DOCTYPE> 定

什麽是 html 標簽，html 實體

事情人類 decode name 什麽 spa 包含方法細心為什麽需要轉換更簡了，因為有時候我們需要在瀏覽器頁面中顯示 html 標簽，然而直接輸出<script>alert(1)</script>,在瀏覽頁面時將會被當作 h

去除重復嵌套的html標簽函數

mat strlen spl pairs match ray key color iss 去除重復嵌套的html標簽 1 function strip_multi_tags($str, $tag = ‘div‘){ 2 preg_match_all(‘/

JS 對html標簽的屬性的幹預以及JS 對CSS 樣式表屬性的幹預

inpu cti doc tel tex ttext button abcd element -任何標簽的任何屬性都可以修改! -HTML裏是怎麽寫, JS就怎麽寫以下是一段js 作用於 css 的 href的代碼 <link id="l1"

html-標簽大全

drag screen poster progress figure ddt ide pro vars html <!DOCTYPE html> <html lang="en | zh-cmn-Hans"></html>

HTML標簽列表總覽

表示信息媒體字母顯示一個點突出類型控件超文本標記語言（簡稱：HTML）標記標簽通常被稱為HTML標簽，HTML標簽是HTML語言中最基本的單位，HTML標簽是HTML（標準通用標記語言下的一個應用）最重要的組成部分。HTML標簽的大小寫無關的，例如&ldq

HTML標簽簡寫及全稱大全

navig code 圖片 erl 段落大全 through 定義 rip 常用HTML標簽的英文全稱及簡單描述 HTML標簽英文全稱中文釋義 a Anchor 錨 abbr Abbreviation 縮寫詞 acronym Acronym

HTML標簽的命名/CSS標準化命名大全

樣式 service ide 小圖標 side lob 註釋 submenu arc 在一個內容較多的HTML頁面中，需要設計許多不同的框架，再為這些不同的框架及內容進行分類，給予相應的名稱，從而使得網頁結構更加清晰，也為工作提供了方便。許多新手朋友在設計一個HTML

HTML標簽marquee 來制作頁面滾動

實現動圖單位頁面復制 logs 語法 content 但是頁面的自動滾動效果，可由javascript來實現，但是今天無意中發現了一個html標簽 - <marquee></marquee>可以實現多種滾動效果，無需js控制。使用marq

HTML標簽之table

html table 對於table來說，在一些小的模塊中進行表格布局是非常好用的。我們可以這樣來理解table，主要分成table部分和td部分。table部分：主要是來控制外邊框的（就是最外面一層邊框，不包括裏面部分），它擁有的屬性為：margin屬性，border屬性，cellspacing屬性