Request模塊—數據解析工具

阿新 • • 發佈：2019-04-29

https 啟動 yun 使用基本語法 select star 新建 ast

一、爬蟲基本步驟

指定URL信息
發起請求
獲取響應數據
對響應數據進行數據解析
持久化存儲

二、數據解析

1. 正則表達式

(1) 基本語法

1. 單字符：
    . : 除換行以外所有字符
    [] ：[aoe] [a-w] 匹配集合中任意一個字符
    \d ：數字  [0-9]
    \D : 非數字
    \w ：數字、字母、下劃線、中文
    \W : 非\w
    \s ：所有的空白字符包,括空格、制表符、換頁符等等。等價於 [ \f\n\r\t\v]。
    \S : 非空白
2. 數量修飾：
    * : 任意多次  >=0
    + : 至少1次   >=1
    ? : 可有可無  0次或者1次
    {m} ：固定m次 hello{3,}
    {m,} ：至少m次
    {m,n} ：m-n次
3. 邊界：
    $ : 以某某結尾
    ^ : 以某某開頭
4. 分組：
    (ab)  
5. 貪婪模式： .*
6. 非貪婪（惰性）模式： .*?
7. 爬蟲正則
    re.I : 忽略大小寫
    re.M ：多行匹配
    re.S ：單行匹配  //爬蟲常用
    re.sub(正則表達式, 替換內容, 字符串)

(2) 相關案例

import re
# 提取出python
key="javapythonc++php"
re.findall('python',key)[0]
-----------------------------------------------------------------------------------------
# 提取出hello world
key="<html><h1>hello world<h1></html>"
re.findall('<h1>(.*)<h1>',key)[0]
-----------------------------------------------------------------------------------------
# 提取170
string = '我喜歡身高為170的女孩'
re.findall('\d+',string)
-----------------------------------------------------------------------------------------
# 提取出http://和https://
key='http://www.baidu.com and https://boob.com'
re.findall('https?://',key)
-----------------------------------------------------------------------------------------
# 提取出hello
key='lalala<hTml>hello</HtMl>hahah' #輸出<hTml>hello</HtMl>
re.findall('<[Hh][Tt][mM][lL]>(.*)</[Hh][Tt][mM][lL]>',key)
-----------------------------------------------------------------------------------------# 提取出hit.
key='[email protected]'  # 想要匹配到hit.
re.findall('h.*?\.',key)
-----------------------------------------------------------------------------------------
# 匹配sas和saas
key='saas and sas and saaas'
re.findall('sa{1,2}s',key)
-----------------------------------------------------------------------------------------
# 匹配出i開頭的行
string = '''fall in love with you
i love you very much
i love she
i love her'''

re.findall('^.*',string,re.M)
-----------------------------------------------------------------------------------------
# 匹配全部行
string1 = """<div>靜夜思
窗前明月光
疑是地上霜
舉頭望明月
低頭思故鄉
</div>"""

re.findall('.*',string1,re.S)

2. Beautifulsoup

(1) 環境安裝

- 需要將pip源設置為國內源，阿裏源、豆瓣源、網易源等
   - windows
    （1）打開文件資源管理器(文件夾地址欄中)
    （2）地址欄上面輸入 %appdata%
    （3）在這裏面新建一個文件夾  pip
    （4）在pip文件夾裏面新建一個文件叫做  pip.ini ,內容寫如下即可
        [global]
        timeout = 6000
        index-url = https://mirrors.aliyun.com/pypi/simple/
        trusted-host = mirrors.aliyun.com
   - linux
    （1）cd ~
    （2）mkdir ~/.pip
    （3）vi ~/.pip/pip.conf
    （4）編輯內容，和windows一模一樣
- 需要安裝：pip install bs4
     bs4在使用時候需要一個第三方庫，把這個庫也安裝一下
     pip install lxml

(2) 基礎使用

1. 使用流程：       
    - 導包：from bs4 import BeautifulSoup
    - 使用方式：可以將一個html文檔，轉化為BeautifulSoup對象，然後通過對象的方法或者屬性去查找指定的節點
    
2. 內容
    (1)轉化本地文件：
        - soup = BeautifulSoup(open('本地文件'), 'lxml')
    (2)轉化網絡文件：
        - soup = BeautifulSoup('字符串類型或者字節類型', 'lxml')
    (3)打印soup對象顯示內容為html文件中的內容
    
3. 基礎鞏固：
    （1）根據標簽名查找
        - soup.a   只能找到第一個符合要求的標簽
    （2）獲取屬性
        - soup.a.attrs  獲取a所有的屬性和屬性值，返回一個字典
        - soup.a.attrs['href']   獲取href屬性
        - soup.a['href']   也可簡寫為這種形式
    （3）獲取內容
        - soup.a.string
        - soup.a.text
        - soup.a.get_text()
       【註意】如果標簽還有標簽，那麽string獲取到的結果為None，而其它兩個可以獲取文本內容
    （4）find：找到第一個符合要求的標簽
        - soup.find('a')  找到第一個符合要求的
        - soup.find('a', title="xxx")
        - soup.find('a', alt="xxx")
        - soup.find('a', class_="xxx")
        - soup.find('a', id="xxx")
    （5）find_all：找到所有符合要求的標簽
        - soup.find_all('a')
        - soup.find_all(['a','b']) 找到所有的a和b標簽
        - soup.find_all('a', limit=2)  限制前兩個
    （6）根據選擇器選擇指定的內容
               select:soup.select('#feng')
        - 常見的選擇器：標簽選擇器(a)、類選擇器(.)、id選擇器(#)、層級選擇器
            - 層級選擇器：
                div .dudu #lala .meme .xixi  下面好多級
                div > p > a > .lala          只能是下面一級
        【註意】select選擇器返回永遠是列表，需要通過下標提取指定的對象

3. xpath

(1) 選取節點

表達式	描述
nodename	選取此節點的所有子節點
/	從根節點選取
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置
.	選取當前節點
..	選取當前節點的父節點
@	選取屬性

(2) 案例

路徑表達式	結果
bookstore	選取 bookstore 元素的所有子節點
/bookstore	選取根元素 bookstore;註釋：假如路徑起始於正斜杠( / )則此路徑始終代表到某元素的絕對路徑
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素
//book	選取所有 book 子元素，而不管它們在文檔中的位置
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麽位置
//@lang	選取名為 lang 的所有屬性

(3) 謂語

表達式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素
//title[@lang=‘eng‘]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00

(4) 選取位置節點

表達式	結果
*	匹配任何元素節點
@*	匹配任何元素屬性節點
node()	匹配任何類型的節點

路徑表達式	結果
/bookstore/*	選取bookstore元素的所有子元素
//*	選取文檔中的所有元素
//title[@*]	選取所有帶屬性的title元素

路徑表達式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素
//title \| //price	選取文檔中的所有 title 和 price 元素
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素

(5) 基本案例

1. 屬性定位：
    #找到class屬性值為song的div標簽
    //div[@class="song"]
2. 層級&索引定位：
    #找到class屬性值為tang的div的直系子標簽ul下的第二個子標簽li下的直系子標簽a
    //div[@class="tang"]/ul/li[2]/a
3. 邏輯運算：
    #找到href屬性值為空且class屬性值為du的a標簽
    //a[@href="" and @class="du"]
4. 模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
5. 取文本：
    # /表示獲取某個標簽下的文本內容
    # //表示獲取某個標簽下的文本內容和所有子標簽下的文本內容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
6. 取屬性：
    //div[@class="tang"]//li[2]/a/@href

三、流程

1.下載：pip install lxml

2.導包：from lxml import etree

3.將html文檔或者xml文檔轉換成一個etree對象，然後調用對象中的方法查找指定的節點
    2.1 本地文件: tree = etree.parse(文件名)
                 tree.xpath("xpath表達式")
    2.2 網絡數據：tree = etree.HTML(網頁內容字符串)
                 tree.xpath("xpath表達式")
        
4.備註:
    安裝Chrome的xpath插件
    安裝xpath插件在瀏覽器中對xpath表達式進行驗證：可以在插件中直接執行xpath表達式
    將xpath插件拖動到谷歌瀏覽器拓展程序（更多工具）中，安裝成功
    啟動和關閉插件 ctrl + shift + x
    
5.xpath解析原理
- 實例化一個etree的對象，且將頁面源碼數據加載到該對象中    
- 調用etree對象中的xpath方法實現標簽定位和數據的提取    
- 在xpath函數中必須作用xpath表達式    
- xpath函數返回的一定是一個列表

Request模塊—數據解析工具

https 啟動 yun 使用基本語法 select star 新建 ast 一、爬蟲基本步驟指定URL信息發起請求獲取響應數據對響應數據進行數據解析持久化存儲二、數據解析 1. 正則表達式 (1) 基本語法 1. 單字符： . : 除換行以外所有

python全棧開發-json和pickle模塊(數據的序列化)

簡單的 flat ria ati rip 我們 dex 保存狀態 png 一、什麽是序列化？　　我們把對象(變量)從內存中變成可存儲或傳輸的過程稱之為序列化，在Python中叫pickling，在其他語言中也被稱之為serialization，marshalling，f

【unity系統模塊開發】UnityEditor工具--數據可視化

無在Unity做性能優化，或者做一些編輯器工具的時候，如果把收集回來的數據用圖表來展示，可以使數據更加直觀，如果是性能優化的時候，就能更突顯出問題所在。在項目的開發過程中有同事做了個可視化工具，看了一下真實高端，就研究了一下並且簡化做了個demo。所以這其實也不能算原創，更多的代碼是同事寫的，我只能算是介紹了

這些Linux數據恢復工具，你用過哪幾個

linux數據恢復不論你運用的是臺式電腦仍是筆記本，需求重視的要點之一都是怎麽保護好你的名貴數據。由於總會有各種突發狀況使你的系統潰散，然後你要做的就是恢復數據。不論你怎麽想，要是我失去了一切的數據卻無法恢復的話，我會分分鐘肢解了這臺破電腦。不過幸虧的是，如今商場上有不少的數據恢復工具，能協助咱們從體系的硬盤

Rsync數據同步工具應用指南

rsync 文件同步 1、Rsync數據同步工具應用指南簡介Rsync的特性：Rsync的工作方式：Rsync命令同步選項參數：本地主機模式示例遠程RPC模式示例簡介 Rsync是一款開源的、快速的、多功能的、可實現全量及增量的本地或遠程數據同步備份的優秀工具。可使本地和遠程兩臺或多臺主機之間的

爬蟲小探-Python3 urllib.request獲取頁面數據

text height urlopen -s mozilla 使用 pri 爬蟲 size 使用Python3 urllib.request中的Requests()和urlopen()方法獲取頁面源碼，並用re正則進行正則匹配查找需要的數據。 #forex.py#co

Linux下常用的數據恢復工具

restore 幫助信息特定結合 inux 只讀 urn 並且格式一。數據刪除命令：rm -rf,將任何數據直接從硬盤刪除，且沒有任何提示建議做法：把命令參數放到後面：rm -rfi 將刪除的東西通過mv命令移動到系統下的/temp目錄下，然後寫個腳本定期執行清除

golang的json數據解析

str new json port imp github data this req import ( "fmt" "time" "github.com/astaxie/beego" "github.com/bitly/go-simplej

Python 安裝MySQL數據庫工具包

版本 .com spa sta -1 python img uci 簡單方法 Windows下安裝MYSQL數據庫工具包的簡單方法：下載：打開http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到MYSQL –Python：

網絡相關系列之四：數據解析之SAX方式解析XML數據

request nco nodename 新建作用 call 其他 auto 文件內容一、XML和Json數據的引入：通常情況下。每一個須要訪問網絡的應用程序都會有一個自己的server。我們能夠向server提交數據，也能夠從server獲取數據。

python3.6中安裝numpy,pandas,scipy,scikit_learn,matplotlib等數據分析工具

scipy pandas python3.6中安裝numpy scikit_learn matplotlib等數據分析工具運行環境：python3.6+windows64位1.安裝pip（1）如果在安裝python3.6時，你有勾選關於pip的選項，那麽在python3,6中就會帶有pi

最簡單簡潔高效的Json數據解析

scrip 評論 mar example .get settag i++ ref 填充一.無圖無真相二.主要代碼 1.導入jar包拷貝fastjson.jar包到projectlibs包下 2.封裝工具類JsonUtil.java

安卓數據解析之 fastjson 的解析以及Gson解析

ati gen post 解析 lsm tid ado ogl context 在安卓開發過程中的。我們經常使用的數據傳遞是以json格式傳遞。安卓親爹提供了我們Gson解析工具。點擊下載Gson.jar 阿裏巴巴FastJson是一個Json處

Azure Blob數據遷移工具

net blog iss 壓縮完全文件 storage 手工兩個數據遷移備份，更多的應用場景見https://docs.azure.cn/zh-cn/storage/common/storage-moving-data?toc=%2fstorage%2fblobs%

python json requests request 模塊

python 模塊1、json 通過Python的json模塊，可以將字符串形式的json數據轉化為字典，也可以將Python中的字典數據轉化為字符串形式的json數據。之前使用這個模塊時，都是隨用隨查，淺嘗輒止，對模塊的功能了解不深。隨著使用次數的增加，我對這個功能完善的模塊有了更多的了解，記錄如下。jso

Linux系統備份還原工具4（rsync/數據同步工具）

nor 出現問題 tab mman 文件格式部署 ubunt 數據 logs rsync即是能備份系統也是數據同步的工具。在Jenkins上可以使用rsync結合SSH的免密登錄做數據同步和分發。這樣一來可以達到部署全命令化，不需要依賴任何插件去實現。命令參考：h

數據挖掘工具Modeler有哪些重要資源？如何操作？

modeler 數據挖掘 Modeler是最早的Clementine是ISL公司開發的數據挖掘工具平臺。在1999年SPSS公司收購了ISL公司，對其數據挖掘產品進行重新整合和開發。目前SPSS在IBM的旗下，數據挖掘工具Clementine命名為Modeler，統計分析工具命名為Statistic。

Python數據分析工具

ins img logs nbsp print cat pytho all [0 1、Numpy 　　安裝：pip install numpy　 [root@kvm work]# cat numpy_test.py #!/usr/bin/env python #cod

串口數據解析遞歸與非遞歸的寫法

++ oid range ria void arr sum 匹配 for 暫時沒有弄明白為什麽遞歸的寫法會影響到通訊速度，做一個記錄方便以後查閱以及解決吧. /// <summary> /// 解析數據-遞歸方式 /// </s

Request模塊—數據解析工具

一、爬蟲基本步驟

二、數據解析

1. 正則表達式

(1) 基本語法

(2) 相關案例

2. Beautifulsoup

(1) 環境安裝

(2) 基礎使用

3. xpath

(1) 選取節點

(2) 案例

(3) 謂語

(4) 選取位置節點

(5) 基本案例

三、流程

相關推薦