1. 程式人生 > >xpath解析html標簽

xpath解析html標簽

odin 單元 xpath AD filename fault imp default 創建

最近忙一個需求:把一個字符串形式的html文檔轉化成excel。

分解需求:

① 實現語言 ———— python

② html解析 ———— 用 lxml庫的etree工具,xpath方式解析文檔樹

③ 寫excel ———— 用 xlwt庫寫excel

代碼片段:

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree

# 解析html字符串的方法

def change(data):
html = etree.HTML(str(data))
divs = html.xpath(‘//div[@class="content"]/div‘)
img_top = divs[0].xpath(‘./img/@src‘)
p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

... ...

# 寫excel的方法

def write_excel(filename, data):
book = xlwt.Workbook() #創建excel對象
sheet = book.add_sheet(‘sheet1‘) #添加一個表
c = 0 #保存當前列
for d in data: #取出data中的每一個元組存到表格的每一行
for index in range(len(d)): #將每一個元組中的每一個單元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel

xpath解析html標簽