python網路爬蟲及正則表示式

阿新 • • 發佈：2019-02-13

最簡單的爬取網頁內容

#coding=utf-8
import re
import urllib
# 讀取url內容
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://www.baidu.com/")
print html

簡單實現二次跳轉

在爬 https://www.baidu.com/的時候(這裡多了一個s), 爬回來一個沒有什麼內容的東西, 這個東西告訴我們應該跳轉到 http://www.baidu.com .以下程式碼可以簡單地實現二次跳轉.

#coding=utf-8
import re
import urllib

# 讀取url內容
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getNewHtml(url):
	html = getHtml(url)
	keyList =  re.findall(r"url=(.+?)\">",html)
	website = keyList[0]
	return getHtml(website)

html = getNewHtml("https://www.baidu.com/")
print html

注意:

1\如果<meta http-equiv="refresh" content="0;url=http://www.baidu.com/">這裡沒有返回全地址,則自己字串拼接一下即可.

python的字串拼接,十分方便,例如:

website = '%s%s%s' % ('http://xxx/yyyy/', keyList[0], '.jpg')

2\上面多次使用了變數名html,但並不會相互影響.因為python函式內部的變數名如果第一次出現，且出現在=前面，即被視為定義一個區域性變數，不管全域性域中有沒有用到該變數名，函式中使用的將是區域性變數

模擬瀏覽器爬取網頁

# ------------
#! /usr/bin/env python2.7
import sys
import zlib
import urllib
import urllib2
import cookielib

def main():
    reload( sys )
    sys.setdefaultencoding('utf-8')
    url = 'http://pythontab.com'

    values = {
            "form_field1":"value1",
            "form_field2":"TRUE",
             }

    post_data = urllib.urlencode(values)
    cj=cookielib.CookieJar()
    opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    # # mac使用者
    # headers ={"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:36.0) Gecko/20100101 Firefox/36.0",
    #           "Referer":"http://xxx.yyy.com/test0",
    #           "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    #           "Accept-Language":"en-US,en;q=0.5",
    #           "Accept-Encoding":"gzip, deflate",
    #           "Connection":"keep-alive",
    #           # "Cookie":"QSession=",
    #           "Content-Type":"application/x-www-form-urlencoded",
    #           }
    # # 如果是window可以這麼寫
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
				'Accept':'text/html;q=0.9,*/*;q=0.8',
				'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
				'Accept-Encoding':'gzip',
				'Connection':'close',
				'Referer':None #注意如果依然不能抓取的話，這裡可以設定抓取網站的host
				}
    req = urllib2.Request(url,post_data,headers)
    response = opener.open(req)
    content = response.read()
    gzipped = response.headers.get('Content-Encoding')
    if gzipped:
        html = zlib.decompress(content, 16+zlib.MAX_WBITS)
    else:
    	html = content
    print html.decode("utf8")

if __name__ == '__main__':
    main()

關於python正則表示式

做爬蟲經常需要用到正則表示式,匹配查詢內容.

下面幾段程式碼示範.

查詢包含中文和英文的正則表示式

# 匹配查詢包含中文和英文的函式
# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
	res=re.findall(regex, text)
	if res:
		print "There are %d %s parts:\n"% (len(res), name)
	for r in res:
		print "\t",r.encode("utf8")
# 應用例子1
text =u"#who#helloworld#a中文x#"
findPart(u"#[\w\u2E80-\u9FFF]+#", text, "unicode chinese")
# 輸出
# There are 2 unicode chinese parts:
# #who## #a中文x#

# 應用例子2
text2 =u"#who#helloworld12a中文x3s"
findPart(u"12[\w\u2E80-\u9FFF]+3s", text2, "unicode chinese")
# 輸出
# There are 1 unicode chinese parts:
# 12a中文x3s

限制中文字個數的查詢

# -*- coding: utf-8 -*- 
# 限制中文數量為1-2個的查詢
import re
a = u"q這是個中文869一y9一二三886看啊ab"
b = re.compile(u"[\u4e00-\u9fa5]{1,2}")
c = b.findall(a)
for i in  c:
    print i
     
# #輸出
#這是
#箇中
#文
#一
#一二
#三
#看啊

查詢英文和數字

# 獲取英文和數字
import re
str = "a12yy...3b"
print re.findall(r"a(.+?)b",str)#
# 輸出['12yy...3']

寫正則表示式的時候注意轉義字元,以免導致查詢不到哦.

import re
# 擷取英文及符號
context = "launchable-activity: name='com.bmi.Bmi'"
patt = re.compile(r"launchable-activity\:\s+name='(.*?)'")
ch =  patt.findall(context)
print ch
# 輸出['com.bmi.Bmi']

參考資料:

python網路爬蟲及正則表示式

最簡單的爬取網頁內容 #coding=utf-8 import re import urllib # 讀取url內容 def getHtml(url): page = urllib.urlopen(url) html = page.read() r

[Python] 網路爬蟲和正則表示式學習總結

　　以前在學校做科研都是直接利用網上共享的一些資料，就像我們經常說的dataset、beachmark等等。但是，對於實際的工業需求來說，爬取網路的資料是必須的並且是首要的。最近在國內一家網際網路公司實習，我的mentor交給我的第一件事就是去網路上爬取資料，並對爬取的資料進行相關的分析和解析。 1.利用u

python學習筆記之網路爬蟲(五)正則表示式

IT Xiao Ang Zai 9月13號版本：python3.64 程式設計軟體：pycharm 今天我們來學習正則表示式，那麼什麼是正則表示式呢?我們發現，下載一個網頁是容易的，但是要在網頁中找到我們需要的內容，是比較困難的。直接用find()方法是根本不

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

網路爬蟲的正則表示式

0x00 re正則表示式正則表示式：通用字串表達的框架簡潔表達一組字串的表示式針對字串表達“簡潔”和“特徵”思想的工具正則表示式在文字處理中的作用：表達文字型別同時查詢和替換一組字串匹配

網路爬蟲_re正則表示式

"""正則表示式re 概念檢索符合某個規則的字串。通用的字串表達框架。簡潔表達一組字串。常用表達文字型別的特徵。同時查詢或替換一組字串。匹配字串全部或部分。""" # -------------------

android 開發--抓取網頁解析網頁內容的若干方法(網路爬蟲)（正則表示式）

網頁有兩種格式，一種是xml另一種是html,目前似乎好像大部分都是html格式的，檢視網頁格式的方法是在瀏覽器中右鍵-->檢視原始碼一，XML解析的三大方法 (1) SAX: Simple API for XML SAX是一個解析速度快並且佔用記憶體少的XML解析

從零開始學Python【2】--數值計算及正則表示式

往期回顧：從零開始學Python【1】--資料型別及結構我們接著上一期的Python，繼續跟大家分享有關Python中常用的數值計算和正則表示式。運算子 1）數值運算 +、-、*、/ % (求餘數) // (注意Python中的整除是

Python爬蟲（正則表示式）

Python爬蟲（正則表示式）最近接觸爬蟲比較多，下面我來展示一個剛爬取的成果，使用正則表示式的方法，希望對剛開始接觸爬蟲的小夥伴有所幫助，同時希望大佬們給予點評和指導接下來，步入正題，使用正則表示式爬取資料是一種原始且有效的方法，正則表示式的作用即字元匹配，匹配出你想得到的

python爬蟲5——正則表示式

正則表示式很好用，之前沒有體會到它的強大，在寫原生的servlet程式，呼叫微服務時，要經常拼接字串，寫sql，需求轉換成程式碼，沒有個靈活的工具處理，真的是會被煩死的。就用sublime_txt +正則表示式，賊好用！為什麼要學正則表示式實際上爬蟲一共就四個主要步驟：

Python爬蟲之正則表示式（1）

廖雪峰正則表示式學習筆記 1：用\d可以匹配一個數字；用\w可以匹配一個字母或數字； '00\d' 可以匹配‘007’，但是無法匹配‘00A’; ‘\d\d\d’可以匹配‘010’； ‘\w\w\d’可以匹配‘py3’; 2：.可以匹配任意字元； 'py.'可以匹配'pyc'、

Python爬蟲與正則表示式

Python爬蟲與正則表示式一.Python中萬用字元的使用 1.表示方式表示意義 * 匹配0到任意字元 ? 匹配單個字元

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python 3.x 爬蟲基礎前言　　正則表示式是對字串的一種邏輯公式，用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則的字串”，此字串用來表示對字串的一種“過濾”邏輯。正在在很多開發語言中都存在，而非python獨有。對其知識點進行總結後，會寫一個demo。 1.正

Python爬蟲之正則表示式的使用（三）

import re html = ''' <div class="slide-page" style="width: 700px;" data-index="1"> <a class="item" target="_blank" href="https:

Python爬蟲運用正則表示式

我看到最近幾部電影很火，查了一下貓眼電影上的資料，發現還有個榜單，裡面有各種經典和熱映電影的排行榜，然後我覺得電影封面圖還挺好看的，想著一張一張下載真是費時費力，於是突發奇想，好像可以用一下最近學的東西實現我的需求，學習了正則表示式之後，想著要感受一下它在爬蟲裡面的效果和優缺點。目標：爬取Top100榜單上

從零開始的Python學習Episode 15——正則表示式

正則表示式正則表示式（或 RE）是一種小型的、高度專業化的程式語言，（在Python中）它內嵌在Python中，並通過 re 模組實現，所以使用時要匯入re模組。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。先說幾個元字元 &nbs

Python中常用的正則表示式

正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非python獨有，但是python的re模組提供了實現，在python中寫正則表示式幾乎都用這個庫）樣例展示：這裡要用到線上正則

python第一篇：正則表示式的方法簡單歸納

首先先對一些常用的匹配模式進行一下介紹及互相認識一下，當然了可能它認識我，但我絕對還不認識它。。。 ******************************************** 元字元【 . ^ $ * + ? {} [] \ | () 】 *************

文字處理及正則表示式

文字處理及正則表示式檔案檢視檔案檢視命令： cat，tac，rev cat [OPTION]… [FILE]… cat -E：顯示行結束符$ -n：對顯示出的每一行進行編號 -A：顯示所有控制符 -b：非空行編號 -s：壓縮連續的空行成一行 ta

python網路爬蟲及正則表示式

相關推薦