xpath解析html標簽
最近忙一個需求:把一個字符串形式的html文檔轉化成excel。
分解需求:
① 實現語言 ———— python
② html解析 ———— 用 lxml庫的etree工具,xpath方式解析文檔樹
③ 寫excel ———— 用 xlwt庫寫excel
代碼片段:
# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree
# 解析html字符串的方法
def change(data):
html = etree.HTML(str(data))
divs = html.xpath(‘//div[@class="content"]/div‘)
img_top = divs[0].xpath(‘./img/@src‘)
p_top_tmp_list = divs[0].xpath(‘./p/text()‘)
... ...
# 寫excel的方法
def write_excel(filename, data):
book = xlwt.Workbook() #創建excel對象
sheet = book.add_sheet(‘sheet1‘) #添加一個表
c = 0 #保存當前列
for d in data: #取出data中的每一個元組存到表格的每一行
for index in range(len(d)): #將每一個元組中的每一個單元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel
xpath解析html標簽