python知識點總結（三）

阿新 • • 發佈：2018-12-24

python知識點總結（三）

本文主要總結以下python知識點（共三篇文章，這是第三篇）

正則表示式
python之簡單爬蟲

python正則表示式

首先談一下自己對正則表示式的理解，正則表示式是非常強大的，幾乎能解決任何字元匹配問題，把你想找的東西表達成一個正則表示式，之後就能返回所以匹配的內容。字串也有endwith、startwith等方法，不過功能太過簡單，想學爬蟲第一課必須是先學會正則表示式，其實不要把正則表示式看的太難，其實非常容易，把你想找的轉換為計算機能聽懂的語言，讓計算機幫你找。

正則匹配模式

^	匹配字串的開頭
$	匹配字串的末尾。
.	匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。
[...]	用來表示一組字元,單獨列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。
re*	匹配0個或多個的表示式。
re+	匹配1個或多個的表示式。
re?	匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
re{ n}	
re{ n,}	精確匹配n個前面表示式。
re{ n, m}	匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式
a| b	匹配a或b
(re)	G匹配括號內的表示式，也表示一個組
(?imx)	正則表示式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。
(?-imx)	正則表示式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re)	類似 (...), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#...)	註釋.
(?= re)	前向肯定界定符。如果所含正則表示式，以 ... 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表示式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊。
(?! re)	前向否定界定符。與肯定界定符相反；當所含表示式不能在字串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯。
\w	匹配字母數字及下劃線
\W	匹配非字母數字及下劃線
\s	匹配任意空白字元，等價於 [\t\n\r\f].
\S	匹配任意非空字元
\d	匹配任意數字，等價於 [0-9].
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束，如果是存在換行，只匹配到換行前的結束字串。
\z	匹配字串結束
\G	匹配最後匹配完成的位置。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一個換行符。匹配一個製表符。等
\1...\9	匹配第n個分組的子表示式。
\10	匹配第n個分組的子表示式，如果它經匹配。否則指的是八進位制字元碼的表示式。

處理函式

方法/屬性	作用
match()	決定 RE 是否在字串剛開始的位置匹配
search()	掃描字串，找到這個 RE 匹配的位置
findall()	找到 RE 匹配的所有子串，並把它們作為一個列表返回
finditer()	找到 RE 匹配的所有子串，並把它們作為一個迭代器返回

match() 函式只檢查 RE 是否在字串開始處匹配，而 search() 則是掃描整個字串。

match() 只報告一次成功的匹配，它將從 0 處開始；如果匹配不是從 0 開始的，match() 將不會報告它。

search() 將掃描整個字串，並報告它找到的第一個匹配。

match()、seerch（）、finditer（）如果匹配成功則返回一個Match Object物件，該物件有以下屬性、方法：

方法/屬性	作用
group()	返回被 RE 匹配的字串
start()	返回匹配開始的位置
end()	返回匹配結束的位置
span()	返回一個元組包含匹配 (開始,結束) 的位置

正則可選標記

正則例項

貪婪模式：ab*查找abbbbc得到abbbb

非貪婪模式：ab*?查找abbbbc得到ab
.*?表示使用非貪婪模式

python之簡單爬蟲

會用到網路包urllib2，下面簡單寫一個爬蟲，爬去網頁圖片（正則表示式寫的不是很精確，這裡只是舉一個例子，讀者可修改成更精確的表示式），還可以下載到本地

# -*- encoding=utf-8 -*-
import urllib2
import re

#開啟url地址上的資源
resp = urllib2.urlopen("https://www.baidu.com")
#讀取資源內容，作為bytes讀取
mybytes = resp.read()
#解碼bytes成為string
mystr = mybytes.decode("utf8")
#關閉資源
resp.close()
#下載
# f = open("f:/bigdata/blog.html",'wb')
# f.write(mybytes);
# f.close()

#這個正則表示式不標準，大家可以替換
listurl =re.findall(r'http:.+\.png',mybytes)
print listurl

i=0
for url in listurl:
    f = open(str(i)+'.jpg','w')
    req = urllib2.urlopen(url)
    buf = req.read()
    #f.write(buf)
    i+=1
    print ("over")

python知識點總結（三）

python知識點總結（三）本文主要總結以下python知識點（共三篇文章，這是第三篇）正則表示式 python之簡單爬蟲 python正則表示式首先談一下自己對正則表示式的理解，正則表示式是非常強大的，幾乎能解決任何字元匹配問題，把你想找的東

python學習總結（三），python的變量類型

變量對象的引用 ict asr 字符串連接 number 包括區別通用 1.python中每個變量的申賦值都不需要類型聲明，每個變量在內存中創建都包括變量的標識、名稱和數據等信息。 2. 每個變量在使用前都必須賦值，變量賦值後該變量才會被創建。 3. 允許同時為多個變

04_MFC知識點總結（三）

一、文件檢視結構文件類（CDocument）：儲存載入（讀寫）資料截圖類（CView）：顯示和修改資料 1）單文件 a)文件模板：把框架視窗、文件、檢視關聯在一起 b)單文件（CDocument）： OnNew

Python知識點總結（二）

Python知識點總結（二）本文主要總結以下python知識點 FileIO檔案操作 python操作MySQL OOP面向物件 python套接字程式設計 python執行緒 python函式 FileIO檔案操作檔案操作無非是開啟檔案，

牛客網刷題知識點總結（三）面向物件

三、面向物件 1.在繼承中，子類不會繼承父類的構造方法。。但是可以通過super呼叫 2.普通方法能夠呼叫靜態方法，不能呼叫靜態屬性。反過來，靜態方法只能呼叫靜態屬性，不能呼叫非靜態的方法和屬性。 3.父類沒有無參的建構函式，所以子類需要在自己的建構函式中顯式呼叫父類的建構

Android，java知識點總結（三）

1、umeng分享通過QQ跟QQ空間分享成功或者取消分享沒有回撥問題是因為在你的Activity中你自己處理了onActivityResult，而沒有呼叫super.onActivityResult() 2、Android 讓應用安裝以後自動獲取所需的許可

計算機網路知識點總結（三）資料鏈路層

《資料鏈路層》（1）資料鏈路層功能：鏈路管理；幀同步；流量同步；差錯控制；資料和控制資訊分開；透明傳輸和定址（2）組幀：1）字元計數法 2）收尾定界法 3）違規編碼法（3）差錯控制：1）

springcloud-知識點總結（三）：Hystrix & Dashboard & turbine & Zuul & SpringCloud Config

blank 分布式新項目 ride 情況下 processor ctu 構圖 -i 1.Hystrix斷路器簡介 Hystrix斷路器簡介　　hystrix對應的中文名字是“豪豬”，豪豬周身長滿了刺，能保護自己不受天敵的傷害，代表了一種防禦機

python爬蟲知識點總結（七）PyQuery詳解

get 初始化 span 2個查看 sel docs lin query 官方學習文檔：http://pyquery.readthedocs.io/en/latest/api.html 一、什麽是PyQuery? 答：強大有靈活的網頁解析庫，模仿jQuery實現。如果你覺

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

[學習總結] python語言學習總結（三）

函式閉包定義延伸了作用域的函式(能訪問定義體之外定義的非全域性變數作用共享變數的時候避免使用了不安全的全域性變數允許將函式與某些資料關聯起來,類似於簡化版面向物件程式設計相同程式碼每次生成的閉包,其延伸的作用域都彼此獨立(計數器,登錄檔) 函式的一部分行為在編寫時無法預知

salesforce零基礎學習（九十）專案中的零碎知識點小總結（三）

本次的內容其實大部分人都遇到過，也知道解決方案。但是因為沒有牢記於心，導致問題再次出現還是花費了一點時間去排查了原因。在此記錄下來，好記性不如爛筆頭，爭取下次發現類似的現象可以直接就知道原因。廢話少說，進入正題。我們在Goods__c表中有一個欄位型別為Picklist，欄位值有以下內容：我們想要

python 知識點總結（持續更新）

1、enumerate()使用對一個列表，既要遍歷索引又要遍歷元素時，首先可以這樣寫： list = ['This', 'is', 'a', 'test'] for i in range(len(list)): print(i, list[i]) 但是上面的方法比較累贅，

python基礎語法總結（三）-- 數與字串

python常用系統函式方法與模組 python基礎語法總結（一）-- python型別轉換函式+檔案讀寫 python基礎語法總結（二）-- 函式function python基礎語法總結（三）-- 數與字串 python基礎語法總結（四）-- list列表

NG機器學習總結-（三）線性迴歸以及python實現

在前面已經簡單介紹了迴歸問題（預測房價），其實在統計學中，線性迴歸（Linear Regression）是利用被稱為線性迴歸方程的最小平方函式（Cost Function）對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析。這種函式式一個或多個被稱為迴歸係數的模型引數的

python高階知識點總結（一）

一、什麼是檢視?-- 通俗的講，檢視就是一條SELECT語句執行後返回的結果集。-- 所以我們在建立檢視的時候，主要的工作就落在建立這條SQL查詢語句上。-- 檢視的特點-- 檢視是對若干張基本表的引用，一張虛表，查詢語句執行的結果，-- 不儲存具體的資料（基本表資料發生了改

專案總結（三）----------Python實現SSH遠端登陸，並執行命令！

在自動化測試過程中，比較常用的操作就是對遠端主機進行操作，如何操作呢？使用SSH遠端登陸到主機，然後執行相應的command即可。使用Python來實現這些操作就相當簡單了。下面是測試code。

遠程協助開發總結（三）

線程終止判斷 call 主動 exce div 一個解釋 tex 這裏主要總結一下這段時間對Socket編程的總結 1.如何正確的接收數據和如何正確的關閉連接接收數據要配合正確的關閉連接來使用，關閉連接的時候要先Shutdown本地套接字，這樣遠程套接字就會Recei

react native 知識點總結（一）

修改 ltp 組件改變 set 覆蓋 sta 一個個數一、關於react native 版本的升級參照文檔：http://reactnative.cn/docs/0.45/upgrading.html react-native -v

Python編程（三）字符編碼與文件處理

python3 固定 one 加載 not rdl 寫到 bin 存在計算機要想工作必須通電,也就是說‘電’驅使計算機幹活,而‘電’的特性，就是高低電平(高低平即二進制數1,低電平即二進制數0),也就是說計算機只認識數字　　編程的目的是讓計算機幹活，而編程的結果說白

python知識點總結（三）

python知識點總結（三）

python正則表示式

python之簡單爬蟲

相關推薦