2 爬蟲數據解析的三方式

阿新 • • 發佈：2019-01-22

數字 .so href itl 常用正則邊界 .com 網頁萬裏

一.正則表達式解析

常用正則表達式回顧：

   單字符：
        . : 除換行以外所有字符
        [] ：[aoe] [a-w] 匹配集合中任意一個字符
        \d ：數字  [0-9]
        \D : 非數字
        \w ：數字、字母、下劃線、中文
        \W : 非\w
        \s ：所有的空白字符包,括空格、制表符、換頁符等等。等價於 [ \f\n\r\t\v]。
        \S : 非空白
    數量修飾：
        * : 任意多次  >=0
        + : 至少1次   >=1
        ? : 可有可無  0次或者1次
        {m} ：固定m次 hello{3,}
        {m,} ：至少m次
        {m,n} ：m-n次
    邊界：
        $ : 以某某結尾 
        ^ : 以某某開頭
    分組：
        (ab)  
    貪婪模式： .*
    非貪婪（惰性）模式： .*?

    re.I : 忽略大小寫
    re.M ：多行匹配
    re.S ：單行匹配

    re.sub(正則表達式, 替換內容, 字符串)

Xpath解析

測試頁面數據

<html lang="en">
<head>
    <meta charset="UTF-8" />
    <title>測試bs4</title>
</head>
<body>
    <div>
        <p>百裏守約</p>
    </div>
    <div class="song">
        <p>李清照</p>
        <p>王安石</p>
        <p>蘇軾</p>
        <p>柳宗元</p>
        <a href="http://www.song.com/" title="趙匡胤" target="_self">
            <span>this is span</span>
        宋朝是最強大的王朝，不是軍隊的強大，而是經濟很強大，國民都很有錢</a>
        <a href="" class="du">總為浮雲能蔽日,長安不見使人愁</a>
        <img src="http://www.baidu.com/meinv.jpg" alt="" />
    </div>
    <div class="tang">
        <ul>
            <li><a href="http://www.baidu.com" title="qing">清明時節雨紛紛,路上行人欲斷魂,借問酒家何處有,牧童遙指杏花村</a></li>
            <li><a href="http://www.163.com" title="qin">秦時明月漢時關,萬裏長征人未還,但使龍城飛將在,不教胡馬度陰山</a></li>
            <li><a href="http://www.126.com" alt="qi">岐王宅裏尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li>
            <li><a href="http://www.sina.com" class="du">杜甫</a></li>
            <li><a href="http://www.dudu.com" class="du">杜牧</a></li>
            <li><b>杜小月</b></li>
            <li><i>度蜜月</i></li>
            <li><a href="http://www.haha.com" id="feng">鳳凰臺上鳳凰遊,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li>
        </ul>
    </div>
</body>
</html>

常用xpath表達式

'''
屬性定位：
    #找到class屬性值為song的div標簽
    //div[@class="song"] 
層級&索引定位：
    #找到class屬性值為tang的div的直系子標簽ul下的第二個子標簽li下的直系子標簽a
    //div[@class="tang"]/ul/li[2]/a
邏輯運算：
    #找到href屬性值為空且class屬性值為du的a標簽
    //a[@href="" and @class="du"]
模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
取文本：
    # /表示獲取某個標簽下的文本內容
    # //表示獲取某個標簽下的文本內容和所有子標簽下的文本內容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
取屬性：
    //div[@class="tang"]//li[2]/a/@href
'''

代碼中使用xpath表達式進行數據解析

1.下載：pip install lxml
2.導包：from lxml import etree

3.將html文檔或者xml文檔轉換成一個etree對象，然後調用對象中的方法查找指定的節點

　　2.1 本地文件：tree = etree.parse(文件名)
                tree.xpath("xpath表達式")

　　2.2 網絡數據：tree = etree.HTML(網頁內容字符串)
                tree.xpath("xpath表達式")

2 爬蟲數據解析的三方式

數字 .so href itl 常用正則邊界 .com 網頁萬裏一.正則表達式解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字

爬蟲數據解析的三種方式

.text java pan value 轉換成元素三種 utf-8 hello 一.正則表達式解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合

爬蟲之數據解析的三種方式

att 很慢下標清空應用程序文檔轉換 sce spl 返回結果一，正則表達式解析 re正則就不寫了，前面已經寫入一篇很詳細的正則表達式模塊了~ 而且，在爬蟲中，下面兩種方式用的多一些~ 正則表達式：https://www.cnblogs.com/peng10

python學習第八十五天：網絡爬蟲之數據解析方式

數據解析模式 end 解析多次 pre 綜合練習直接 list Python網絡爬蟲之數據解析方式正則解析單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字

SpringMVC返回json數據的三種方式

class error log under itl gmv nbsp sin pri SpringMVC返回json數據的三種方式:http://blog.csdn.net/shan9liang/article/details/42181345 上述第三種方法：可能會出

網絡相關系列之四：數據解析之SAX方式解析XML數據

request nco nodename 新建作用 call 其他 auto 文件內容一、XML和Json數據的引入：通常情況下。每一個須要訪問網絡的應用程序都會有一個自己的server。我們能夠向server提交數據，也能夠從server獲取數據。

C之數據存儲方式（三十五）

C語言棧堆靜態存儲區今天我們來探討下 C 語言中的數據存儲方式。在程序中，數據的存儲方式無外乎分為棧、堆以及靜態存儲區。我們分別來看看這三種方式，看看有何區別。 A、程序中的棧棧是現代計算機程序裏最為重要的概念之一，棧是用於維護函數調用上下

『Numpy』內存分析_numpy.dtype內存數據解析方式指導

print mes 字典 IE lean del signed mat 不改變 numpy.dtype用於自定義數據類型，實際是指導python程序存取內存數據時的解析方式。【註意】，更改格式不能使用 array.dtype=int32 這樣的硬性更改，會不改變內存直接

jdbc連接數據庫三種方式

println span system ora 方式獲取註冊使用 ring ---恢復內容開始--- 第一種： public class Demo1 { //連接數據庫的URL private String url = "jdbc:mysql://localhost:

MVC後臺獲取數據和插入數據的三種方式

http style jin port username 返回 userinfo 如何 info MVC模式下，從前端獲取數據返回後臺，總共有三種形式。下面的代碼示例將演示如何將數據返回到後端。一、首先我們看看表單代碼，註意input標簽中name的值。 1

axios POST提交數據的三種請求方式寫法

pen formdata spa test bubuko multipart stringify 三種 bsp 1、Content-Type: application/json import axios from ‘axios‘ let data = {"code"

阿裏雲Tengine和Openresty/1.11.2.3 數據對比

image rest bsp 9.png swift val max 文件 -a HLS播放延遲測試：阿裏雲48s ,openresy 31s Cache-Control: max-age=300 NGINX下配置CACHE-CONTROL Content-L

2.基本數據類型

info 多行中文編碼網站 log 信息技術 byte logs form 是否以什麽什麽結尾是否以什麽什麽結尾 1，./text.py Python text.py 2，位和字節的關系？ 8位（bit）=1字節（Byte）

thinkphp3.2.3 數據庫寫入add 方法的一些問題。

src 論壇 cnblogs -1 打開技術分享 alt 個數原因最近在做項目中遇到的一個數據操作add()方法，在不開啟debug的模式下會漏掉一些字段沒寫入數據庫。當時並不知道是這個原因，明明在開發的時候都是沒問題的，怎麽突然出現這個問題，找了好久都沒有頭緒，實

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

網易雲 pytho sco 關鍵詞 page json ner urn 頁碼本實例實現了抓取網易雲課堂中以‘java’為關鍵字的搜索結果，經詳細查看請求的方式為post，請求的結果為JSON數據具體實現代碼如下： import requests import json

Oracle數據庫遷移方式一：impdp+dblink

oracle數據庫遷移 impdp+dblink 實驗環境：源庫： 192.168.2.200 SID=testdb目標庫：192.168.2.100 SID=testdb實驗目的：使用impdp+dblink的方式將192.168.2.200數據庫上的jtrms用戶的所有數據導入到目標數據庫

java連接mysql數據庫的方式（4句語句）

gets .... for creat 賬號 forname stat .get ive 1 加載mysql驅動： class.forName("con.mysql.jdbc.Driver").newInstance(); 2 根據數據庫路徑url,賬號，密碼進行數據庫連接

Python之路第二天，基礎2-基本數據類型

cheng python ech odi lun ron zid ast aof %E5%BE%AE%E4%BF%A1%E5%85%AC%E5%85%B1%E5%8F%B7%E7%9A%84PHP%E5%BC%80%E5%8F%91%E5%9F%BA%E7%A1%80%E7

R in action -- 2.1 數據結構

ram style 處理 cells bsp 創建通過不同 div R in action -- 2.1 數據結構 1、R中用來存儲數據的結構：標量、向量、數組、數據框、列表。 2、R中可以處理的數據類型：數值、字符、邏輯、復數、原生（字節）。 3、向量：向量是用來

R in action -- 2.3 數據輸入

ref cpp people 2.3 excel com 導入 data 輸入 R in action -- 2.3 數據輸入 1、從CSV文件導入數據 > gtades <- read.table("1.csv",header=TRUE,sep=",") &

2 爬蟲數據解析的三方式

一.正則表達式解析

Xpath解析

測試頁面數據

常用xpath表達式

代碼中使用xpath表達式進行數據解析

相關推薦