爬蟲2-頁面解析

阿新 • • 發佈：2018-12-11

頁面解析（取資料）

一，xml-xpath

什麼是XML:  樹形結構
    XML 指可擴充套件標記語言, XML 是一種標記語言，很類似 HTML
    XML 的設計宗旨是傳輸資料，而非顯示資料  XML 的標籤需要我們自行定義。

什麼是XPath？
    XPath 是一門在 XML 文件中查詢資訊的語言，可用來在 XML 文件中對元素和屬性進行遍歷。
    把XML裡的節點轉化為物件 文件轉化為一棵樹

 nodename 選取此節點的所有子節點。
 / 從根節點選取。
 // 從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
 . 選取當前節點。
 .. 選取當前節點的父節點。
 @ 選取屬性。

案例

from lxml import etree
xml=etree.parse('data.xml')#讀取xml檔案，結果為xml物件 xml裡標籤要成對出現

titles=xml.xpath('/bookstore/book/title')  # 在data.xml文件中 下面寫法和這句結果一樣 title都在內部
# titles=xml.xpath('//book/title')
# titles=xml.xpath('//title')
# titles=xml.xpath('/bookstore//title')
# titles=xml.xpath('book/title') # 用節點名查詢 選取此節點的所有子節點。
# titles=xml.xpath('title') 找不到 因為title沒有子節點

for t in titles:
 print(t.text) # 這裡為text 不是innertext

#選取book元素的lang屬性值。
attrs=xml.xpath('/bookstore//title/@lang')
for a in attrs:
    print(a)

#選取book元素的lang=en的內部值。
tt=xml.xpath('/bookstore//title[@lang="en"]')
for t in tt:
    print(t.text)

# 封裝每本書的title price author
# titles=xml.xpath('/bookstore/book/title')
# prices=xml.xpath('/bookstore/book/price')
# authors=xml.xpath('/bookstore/book/author')
# books=[]
# for i in range(len(titles)):
#     book={"title":titles[i].text,"price":prices[i].text,"author":authors[i].text}
#     books.append(book)
# print(books)

二，html(用xpath操作html檔案)

import lxml.html
etree = lxml.html.etree

           #html=etree.parse('liepin.html') # 會出錯 標籤沒有成對出現 用下面的方式

parser = etree.HTMLParser(encoding="utf-8") # 用來讀取html檔案
html = etree.parse("liepin.html", parser=parser) # html 為物件型別

                #result=etree.tostring(html,encoding='utf-8').decode() # 轉化為字串
names=html.xpath('//div[@class="job-info"]/span/a')
for n in names:
    print(n.text)

workyears=html.xpath('//div[@class="job-info"]/p[@class="condition clearfix"]/span[last()]')
for n in workyears:
    print(n.text)

# 封裝
data=html.xpath('//div[@class="job-info"]/p[@class="condition clearfix"]/span')
positions = []
pos = {"salary": "", "edu": "", "work_years": ""}
print(len(data))
for n in range(0, len(data), 3):
    pos = {"salary": data[n].text, "edu": data[n + 1].text, "work_years": data[n + 2].text}
    positions.append(pos)
    print(positions)

三，css

lxml 只會區域性遍歷，而Beautiful Soup 是基於HTML DOM的，會載入整個文件，解析整個DOM樹
BeautifulSoup 用來解析 HTML 比較簡單，支援CSS選擇器、Python標準庫中的HTML解析器，也支援 lxml 的 XML解析器。
Beautiful Soup 3 目前已經停止開發，推薦現在的專案使用Beautiful Soup 4。使用 pip 安裝即可：pip install beautifulso

from bs4 import BeautifulSoup

html=BeautifulSoup(open('liepin.html',encoding='utf-8'),'lxml')
ts=html.select('div.job-info p.condition a')
for t in ts:
    print(t.string)# 拿到內容
    #print(t['href'])# 拿到屬性值
    #print(t.attrs)# 拿到所有屬性


tt=html.select('div.job-info p.condition span')
for t in tt:
    print(t.string)# 拿到內容

爬蟲2-頁面解析

頁面解析（取資料）一，xml-xpath 什麼是XML: 樹形結構 XML 指可擴充套件標記語言, XML 是一種標記語言，很類似 HTML XML 的設計宗旨是傳輸資料，而非顯示資料 XML 的標籤需要我們自行定義。什麼是XPath？

網路爬蟲之頁面解析

作者：玩世不恭的Coder時間：2020-03-13說明：本文為原創文章，未經允許不可轉載，轉載前請聯絡濤耶網路爬蟲之頁面解析前言一、Beautiful Soup就該這樣使用節點選擇資料提取Beautiful Soup小結二、XPath解析頁面節點選擇資料提取XPath小結三、pyquery入

爬蟲2解析HTML頁面-第三方庫Beautiful Soup

1.安裝BeautifulSoup–pip install beautifulSoup4 Beautiful Soup庫也叫beautifulsoup4或bs4 2.解析demo頁面 import requests r=requests.get(“http://python123.io/

Python之爬蟲-- 頁面解析和資料提取

目錄頁面解析和資料提取 Beautiful Soup 4.2.0 文件一、簡介二、bs4的使用 1、匯入模組

爬蟲1.2-資料解析

目錄爬蟲-資料解析 1. xpath和正則表示式心得 2. xpath語法詳解 3. 正則表示式 4. re模組中常用函式：爬蟲-資料解析 1. xpath和正則表示式心得 0）推薦安裝谷歌瀏覽器外掛xpath helper（谷歌應用商店，需

Java爬蟲（二）-- httpClient模擬Http請求+jsoup頁面解析

前言在瞭解了爬蟲的大概原理和目前的技術現狀之後，我就開始了java爬蟲的蹣跚之旅。首先我想到的是用框架，瞭解到的主流的Nutch、webmagic、webcollector等等，都看了一遍，最好懂的是webmagic，因為是國人開發的，有中文文件，看的很

爬蟲實戰：頁面解析詳細指南（正則表示式、XPath、jsoup、Gson）

爬蟲的第二步，是對原始碼進行解析，提煉出目標內容。本篇我們主要介紹以下 4 種常用的解析技術：正則表示式 XPath jsoup Gson 正則表示式正則表示式（Regular Expression），電腦科學的一個概念。通常被用來檢索、替

2 爬蟲數據解析的三方式

數字 .so href itl 常用正則邊界 .com 網頁萬裏一.正則表達式解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字

Ansible API 2.0解析

ansibleimport json from collections import namedtuple from ansible.parsing.dataloader import DataLoader from ansible.vars import VariableManager from ansib

2 怎樣解析XML文件或字符串

ica 代碼 clas books con value title 例如 parse 1 引用XML文件 2 使用XMLReader解析文本字符串 3 使用XMLReader方法讀取XML數據詳細代碼實現例如以下： //初始化一個XML字符串 String xml

2-域名解析過程

alt 域名 img 分享 .com 解析 logs 技術 mage 2-域名解析過程

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

python+selenium自動化軟件測試(第6章)：selenium phantomjs頁面解析使用

前端 down word logs pan canvas 鼠標 agent 瀏覽器中我們都知道Selenium是一個Web的自動化測試工具，可以在多平臺下操作多種瀏覽器進行各種動作，比如運行瀏覽器，訪問頁面，點擊按鈕，提交表單，瀏覽器窗口調整，鼠標右鍵和拖放動作，下拉框和

工作中的那些坑(2)——語法解析器

波蘭表達式 png 其中新增 commons 表達式 http cal fine 工作項目裏用到線性回歸算法，用於計算賬戶的分值，表明某賬戶是否是有風險的賬戶。其中參數都配好了，代碼裏直接用逆波蘭表達式解析即可。本來事情到這裏已經結束，突然來了新的需求：賬戶算出來的分數較

python爬蟲知識點三--解析豆瓣top250數據

www request 10.8 blog 分享 encode uid gb2 on() 一。利用cookie訪問import requests headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64)

Python:關於爬蟲(2)

open request 進行 chrom pen -i 它的 chrome quest 這個案例主要是用於抓取妹子圖片推薦網址：http://jandan.net/ooxx 當我們切換圖片的時候，會發現地址欄裏面只有頁碼數在發生變化，其他的都沒有改變我們通過審查

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

python 利用爬蟲獲取頁面上下拉框裏的所有國家

span googl lec ram chrome color 模塊獲取 ica 前段時間，領導說列一下某頁面上的所有國家信息，話說這個國家下拉框裏的國家有兩三百個，是第三方模塊導入的，手動從頁面拷貝，不切實際，於是想著用爬蟲去獲取這個國家信息，並保存到文件裏。下面是具

爬蟲2

color 產生如果 rect onerror 說明遠程 con 分享爬取網頁的通用代碼框架異常說明 requests.ConnectionError 網絡連接錯誤異常，比如DNS查詢失敗、拒絕連接等 requests.HTTPError HTTP錯

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

爬蟲2-頁面解析

頁面解析（取資料）

相關推薦