以爬取“我要愛死你”貴州行政區劃為例，淺析lxml中etree的用法

阿新 • • 發佈：2018-12-18

lxml是python中一個非常強大的解析庫。其中的etree更是常常用來判斷網頁中某一節點是否存在，並獲取相應的文字或屬性。

一、用法詳解

1、匯入etree

import requests

from lxml import etree

2、獲取網頁資訊並生成etree選擇器，即下面中的html

res = requests.get('http://www.baidu.com')

html =etree.HTML(res.text)

3、利用選擇器的xpath()函式，獲取相應的節點

datalist01 = html.xpath('//table//table//a/text()')#獲取當前頁面下的表格下的表格中的a標籤的文字

datalist02 = html.xpath('//table//table//a/@href')#獲取當前頁面下的表格下的表格中的a標籤的href屬性

注：

1) // 雙斜槓定位根節點，會對全文進行掃描，在文件中選取所有符合條件的內容，以列表的形式返回。

2) / 單斜槓尋找當前標籤路徑的下一層路徑標籤或者對當前路標籤內容進行操作

3) /text() 獲取當前路徑下的文字內容

4) /@xxxx 提取當前路徑下標籤的屬性值

5) | 可選符使用|可選取若干個路徑如//p | //div 即在當前路徑下選取所有符合條件的p標籤和div標籤。

6) . 點用來選取當前節點

7) .. 雙點選取當前節點的父節點

二、爬取“我要愛死你”網站程式碼

import requests

import time

from lxml import etree

from xlrd import open_workbook

from xlutils.copy import copy

#鄉鎮------>村

def parseCun(link):

header={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"

}

time.sleep(3)

res = requests.get(link,headers=header)

html =etree.HTML(res.text)

datalist = html.xpath('//table//table//a/text()')

datalist2 = html.xpath('//table//table//a/@href')

n = 5

name = []

code = []

url = []

sjcode = link[33:45]

print(sjcode)

while n < len(datalist):

if n%2 != 0:

name.append(datalist[n])

url.append('https://xingzhengquhua.51240.com'+datalist2[n])

else:

code.append(datalist[n])

n = n+1

saveData(sjcode,name,code)

#區縣------>鄉鎮

def parseQxj(link):

header={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"

}

res = requests.get(link,headers=header)

html =etree.HTML(res.text)

datalist = html.xpath('//table//table//a/text()')

datalist2 = html.xpath('//table//table//a/@href')

n = 4

name = []

code = []

url = []

sjcode = link[33:45]

print(sjcode)

while n < len(datalist):

if n%2 != 1:

name.append(datalist[n])

else:

code.append(datalist[n])

url.append('https://xingzhengquhua.51240.com'+datalist2[n])

n = n+1

i = 0

for u in url:

print(name[i])

sname = []

scode = []

sname.append(name[i])

scode.append(code[i])

saveData(sjcode,sname,scode)

time.sleep(3)

parseCun(u)

del sname[:]

del scode[:]

i = i + 1

#市州---->區縣

def parseSzj(link):

header={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"

}

res = requests.get(link,headers=header)

html =etree.HTML(res.text)

datalist = html.xpath('//table//table//a/text()')

datalist2 = html.xpath('//table//table//a/@href')

n = 3

name = []

code = []

url = []

sjcode = link[33:45]

print(sjcode)

while n < len(datalist):

if n%2 != 0:

name.append(datalist[n])

url.append('https://xingzhengquhua.51240.com'+datalist2[n])

else:

code.append(datalist[n])

n = n + 1

i = 0

for u in url:

print(name[i])

sname = []

scode = []

sname.append(name[i])

scode.append(code[i])

saveData(sjcode,sname,scode)

time.sleep(3)

parseQxj(u)

del sname[:]

del scode[:]

i = i + 1

#解析省級 --->市州

def parseGzs(link):

header={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"

}

res = requests.get(link,headers=header)

html =etree.HTML(res.text)

datalist = html.xpath('//table//table//a/text()')

datalist2 = html.xpath('//table//table//a/@href')

n = 2

name = []

code = []

url = []

sjcode = link[33:45]

print(sjcode)

while n < len(datalist):

if n%2 != 1:

name.append(datalist[n])

else:

code.append(datalist[n])

url.append('https://xingzhengquhua.51240.com'+datalist2[n])

n = n + 1

i = 0

print(url)

for u in url:

sname = []

scode = []

print(2)

sname.append(name[i])

scode.append(code[i])

saveData(sjcode,sname,scode)

parseSzj(u)

del sname[:]

del scode[:]

i = i + 1

#儲存資料

def saveData(sjcoede,name,bjcode):

rexcel = open_workbook("./行政區劃.xls")

rows = rexcel.sheets()[0].nrows

excel = copy(rexcel)

table = excel.get_sheet(0)

row = rows

i = 0

for code in bjcode:

table.write(row, 0, sjcoede)

table.write(row, 1, name[i])

table.write(row, 2, bjcode[i])

row += 1

i = i +1

excel.save("./行政區劃.xls")

#主函式

def main(url):

parseGzs(url)

if __name__ == '__main__':

url = 'https://xingzhengquhua.51240.com/520000000000__xingzhengquhua/'

main(url)

以爬取“我要愛死你”貴州行政區劃為例，淺析lxml中etree的用法

lxml是python中一個非常強大的解析庫。其中的etree更是常常用來判斷網頁中某一節點是否存在，並獲取相應的文字或屬性。一、用法詳解 1、匯入etree import requests from lxml import etree 2、獲取網頁資訊並生成etree選擇

爬取我的愛書

一、機制：例如在瀏覽器中輸入www.baidu.com回車，實際是由瀏覽器找到這個網址所對應的IP地址，向IP地址的伺服器傳送一個請求，伺服器會給一個響應，通過HTTP協議進行通訊。二、HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議

以單例模式為例，在Idea中多執行緒debug

我們以單例模式的懶漢式在idea中進行多執行緒debug 一是可以學習多執行緒debug，二是可以瞭解懶漢式的執行緒不安全的原因首先我們建立一個單例懶漢式，然後建立兩個執行緒程式碼如下：然後進行多執行緒debug，來干預懶漢式的執行順序

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 14:03 # @Author : zhangz # @File : day4_yanzhengma.py # @Software: Py

利用python爬取我愛我家租賃房源資訊

主要思路： 1.通過get方法向伺服器提交head檔案和cookie資訊（通過在chrome網頁上面登入之後獲取，避免了通過賬號密碼模擬登陸的繁瑣過程），實現模擬登陸的效果 2.訪問網頁，通過萬能的正則匹配到所需要的資訊具體演算法有3步驟： 1.從租賃房源的第一頁至第10

利用BeautifulSoup爬取我愛我家的租房資料

因為之前對BeautifulSoup一直不是很熟悉，剛好身邊的朋友同事在找房子，就想著能不能自己寫個爬蟲爬一下資料，因此就寫了這個爬蟲。基本都是邊看書邊寫的，不過也沒什麼好講的。直接粘程式碼了。

不到3歲寶寶說“我要殺了你”（轉）

角色表達爸爸 html 體會好的 idt 們的 http http://www.yxtvg.com/toutiao/5392595/20180303A1603100.html 一天，不知何故，諾諾突然說“我要殺了你。” 我當時一臉愕然，錯愕之余，趕緊蹲下來，拉著她，認

愛死你了chrome

chrome---google推出的一款瀏覽器，上網速度很快，而且與gmail整合使用效果更佳為啥愛死chrome，昨晚整理硬碟碎片檔案，整理完還有50%碎片，看來只

我永遠愛著你

人生什麼時候都來得及，你也只才過了一半而已，不要把太多的時間花在柴米油鹽上，你真的喜歡什麼，就花時間去做好，不要去討好別人，最重要的是歡愉自己。媽媽，你已經付出了很多，現在要有些改變了，不能把未來，把希望僅僅寄託於我，你要相信自己也是無所不能，希望應該來源於自己，快樂悲傷也是如此，找到自己所愛

php爬蟲——以爬取圖片為例

爬蟲的一般思路如下：分析目標源所有url抓取URL分析內容入庫現在以抓取一個圖片為主的網站為例，爬取其中的圖片。 1.分析目標源所有url 此處發現，頻道的url為圖片詳情頁的u

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

python爬蟲遇到驗證碼的處理方法（以爬取中國執行資訊公開網為例）

朋友們大家好，python爬蟲是在學習python時比較容易上手的學習方式，爬蟲的思路簡要以下幾點： 1.獲取需要爬取頁面的網址，並且對網頁內容進行分析。（主要就原始碼討論，如果我們需要的內容沒有在原始碼出現，則需要進行抓包分析） 2.找到我們需要爬取的內容時我們

爬取我喜歡的小說

set imp link 需要 line .html lsp sci @class 看個小說，各種廣告煩人，自己寫個爬蟲爬到本地 #首先創個爬蟲 -創建 CrawlSpider 爬蟲 scrapy genspider -c crawl [爬蟲名字] [域名] #setti

await,async 我要把它翻個底朝天，這回你總該明白了吧

## 一：背景 ### 1. 講故事 await，async 這玩意的知識點已經被人說的爛的不能再爛了，看似沒什麼好說的，但我發現有不少文章還是從理論上講述了這兩個語法糖的用法，懂得還是懂，不懂的看似懂了過幾天又不懂了，人生如戲全靠記是不行的哈

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

對不起我要上啊D7.0了！不，是SQLMAP！

0x00 sqlmap簡介官網：http://sqlmap.org sqlmap是一個自動化的sql注入滲透工具，指紋檢測、注入方式、注入成功後的取資料等等都是自動化的，甚至還提供了一個字典來將取回來的hash爆破，sqlmap是基於python開發的，因此具有跨

WPF資料爬取小工具－某寶推廣位批量生成，及訂單爬取記：接單最痛一次的感悟

專案由來：上月閒來無事接到接到一個單子，自動登入　X寶平臺，然後重定向到指定頁面批量生成推廣位資訊；與此同時自動定時同步訂單資料到需求提供方的Java服務。當然期間遇到一個小小的問題就是介面樣式的問題，起初使用的ｗｉｎｆｏｒｍ開發，但是樣式，你懂的，所以後來索性直接使用ｗｐｆ．先宣告：這裡只做經驗分享

以我在阿里遊戲的經驗為例，談如何邊做業務邊架構重構

對一個程式設計師來說，世界上最痛苦的事情是什麼呢？有的人會說：編碼的時候產品改需求！有的人會說：看別人不知所云的程式碼！有的人會說：定位一個百年不遇千年難尋的線上不定時偶爾出現的bug！有的人會說：找不到女（男）朋友！但我要說，這些痛苦其實都不算什麼，要麼是多花點時間去解決（比如說改需求、

以爬取“我要愛死你”貴州行政區劃為例，淺析lxml中etree的用法

相關推薦