Python爬蟲（正則表示式）

阿新 • • 發佈：2018-11-15

Python爬蟲（正則表示式）

最近接觸爬蟲比較多，下面我來展示一個剛爬取的成果，使用正則表示式的方法，希望對剛開始接觸爬蟲的小夥伴有所幫助，同時希望大佬們給予點評和指導

接下來，步入正題，使用正則表示式爬取資料是一種原始且有效的方法，正則表示式的作用即字元匹配，匹配出你想得到的資料。

對於正則表示式做一下簡單整理：

re模組：不同的語言均有使用正則表示式的方法，但各不相同。Python是通過re模組來實現的。

>>>import re
>>> re.search(r'python','java\python\C\C++\php')
<_sre.SRE_Match object; span=(5, 11), match='python'>

search()方法用於在字串中搜索正則表示式模式第一次出現的位置，這裡找到了，匹配的位置是（5,11）
注意兩點：
1、第一個引數是正則表示式
2、找到後返回範圍是以下標0開始的；如果找不到，它就返回None.

萬用字元：*和？就是大家熟知的萬用字元，用它表示任何字元。正則表示式也有萬用字元，在這裡用一個點號（.）來表示，它可以匹配除了換行符之外的任意字元：

>>> re.search(r'.','java\python\C\C++\php')
<_sre.SRE_Match object; span=(0, 1), match='j'>

#數量詞
#*匹配0次或者無限多次
#+匹配1次或者無限多次
#?匹配0次或者1次->可以轉化成非貪婪
import re

a='pytho0python1pythonn2'

r=re.findall('python*',a)
m=re.findall('python+',a)
p=re.findall('python{1,2}?',a)

#貪婪與非貪婪
print(r)
print(m)
print(p)

輸出結果分別為：

['pytho', 'python', 'pythonn']
['python', 'pythonn']
['python', 'python']

反斜槓：消除特殊字元的特殊功能，即用字元的形式顯示特殊字元。

>>> re.search(r'\.','java\python\C\C++\php.')
<_sre.SRE_Match object; span=(21, 22), match='.'>

特殊符號及用法：特殊符號及用法參照（詳細描述了正則表示式）
——————————————————————————————————————————

下面爬取https://www.51job.com/

搜尋欄中輸入python,地址為北京、上海、深圳、廣州
使用正則表示式，輸出待搜尋網頁上的部分資訊，如下圖：

一、要求輸出工作地點、薪資和釋出時間

（1、工作地點只輸出北京、上海、廣州、深圳
2、薪資要求最低、最高工資及萬\錢、年\月分別輸出
）

import re
from urllib import request
#地址
url='https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='

r=request.urlopen(Spider.url)
htmls=r.read()
htmls=str(htmls,encoding='gbk')
#定位標籤div
s=re.findall('<span class="t3">(北京|上海|深圳|廣州).*</span>\s*<span class="t4">(\d+\.*\d*)-(\d+\.*\d*)(千|萬)/(年|月)</span>\s*<span class="t5">([\s\S]*?)</span>',htmls)
#s=re.findall('<div class="el">([\s\S]*?)</div>',htmls)
#s=re.findall('<span class="t3">(北京|上海|深圳|廣州).*</span>\s*<span class="t4">(\d+\.*\d*)-(\d+\.*\d*)(千|萬)/(年|月)</span>',htmls)

for i in range(0,len(s)):
    for j in range(0,6):
        print(s[i][j],end='       ')
    print()

二、要求輸出工作地點、薪資和釋出時間（完整輸出）

import re
from urllib import request
#斷點除錯
class Spider():
    url='https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
    #定位標籤div
   
    root_pattern='<div class="el">([\s\S]*?)</div>'
    addr_pattern='<span class="t3">([\s\S]*?)</span>'
    salary_pattern='<span class="t4">([\s\S]*?)</span>'
    date_pattern='<span class="t5">([\s\S]*?)</span>'
    '''
    root_pattern='<div class="el">([\s\S]*?)</div>'
    addr_pattern='<span class="t3">(北京|上海|深圳|廣州).*</span>'
    salary_pattern='<span class="t4">(\d+\.*\d*)-(\d+\.*\d*)(千|萬)/(年|月)</span>'
    date_pattern='<span class="t5">([\s\S]*?)</span>'
    '''
    def __fetch_content(self):
        r=request.urlopen(Spider.url)
        htmls=r.read()
        htmls=str(htmls,encoding='gbk')
        return htmls

    #分析文字    
    def __analysis(self,htmls):
        root_html=re.findall(Spider.root_pattern,htmls)
        anchors=[]
        for html in root_html:
            addr=re.findall(Spider.addr_pattern,html)
            salary=re.findall(Spider.salary_pattern,html)
            '''
            for i in range(0,len(salary)):
               for j in range(0,4):
                   w=salary[i][j]
                   print(w,end='         ')
               h=salary[i]
               print(h)
               print()
            #print(salary)
            '''
            date=re.findall(Spider.date_pattern,html)
            anchor={'addr':addr,'salary':salary,'date':date}
            anchors.append(anchor)        
        #print(root_html[0])
        #print(len(root_html[0]))     
        return anchors

    #定義字典
    def __refine(self,anchors):
        
        l=lambda anchor:{'addr':anchor['addr'][0].strip(),
                        'salary':anchor['salary'][0],
                        'date':anchor['date'][0] 
                        }
        
        return map(l,anchors)

    #編寫排序函式
    def __sort(self,anchors):
        anchors=sorted(anchors,key=self.__sort_seed)
        return anchors

    def __sort_seed(self,anchor):
        return anchor['addr']
    
    #編寫函式，使得得到的字典有序的打印出來
    def __show(self,anchors):
        
        for anchor in anchors:
            print(anchor['addr']+'        '+anchor['salary']+'        '+anchor['date'])

        '''
        for anchor in anchors:
            print(anchor['addr']+'       '+anchor['date'])

        '''
    #入口方法
    def go(self):
       htmls= self.__fetch_content()
       anchors=self.__analysis(htmls)
       anchors=list(self.__refine(anchors))
       anchors=self.__sort(anchors)
       #print(anchors)
       self.__show(anchors)

spider=Spider()
spider.go()

Python爬蟲（正則表示式）

Python爬蟲（正則表示式）最近接觸爬蟲比較多，下面我來展示一個剛爬取的成果，使用正則表示式的方法，希望對剛開始接觸爬蟲的小夥伴有所幫助，同時希望大佬們給予點評和指導接下來，步入正題，使用正則表示式爬取資料是一種原始且有效的方法，正則表示式的作用即字元匹配，匹配出你想得到的

android 開發--抓取網頁解析網頁內容的若干方法(網路爬蟲)（正則表示式）

網頁有兩種格式，一種是xml另一種是html,目前似乎好像大部分都是html格式的，檢視網頁格式的方法是在瀏覽器中右鍵-->檢視原始碼一，XML解析的三大方法 (1) SAX: Simple API for XML SAX是一個解析速度快並且佔用記憶體少的XML解析

Python爬蟲之正則表示式（1）

廖雪峰正則表示式學習筆記 1：用\d可以匹配一個數字；用\w可以匹配一個字母或數字； '00\d' 可以匹配‘007’，但是無法匹配‘00A’; ‘\d\d\d’可以匹配‘010’； ‘\w\w\d’可以匹配‘py3’; 2：.可以匹配任意字元； 'py.'可以匹配'pyc'、

Python爬蟲之正則表示式的使用（三）

import re html = ''' <div class="slide-page" style="width: 700px;" data-index="1"> <a class="item" target="_blank" href="https:

Python爬蟲四（正則表示式）

1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。正則表示式是用來匹配字串非常強大的工具，在其他程式語言中同樣有正則表示式的概念，Python同樣不

Python：re模組（正則表示式）

#!/usr/bin/env python # coding:UTF-8 """ @version: python3.x @author:曹新健 @contact: [email protected] @software: PyCharm @file: re模組簡介.py @time:

python之re模組（正則表示式）常用函式

1、compile() 編譯正則表示式模式，返回一個物件的模式。（可以把那些常用的正則表示式編譯成正則表示式物件，這樣可以提高一點效率。）格式： re.compile(pattern,flags=0) pattern: 編譯時用的表示式字串。 flags 編譯標誌位，用於修改正

少說話多寫程式碼之Python學習064——標準模組（正則表示式）

Python中re模組包含的是對正則表示式的支援。正則表示式是一個很有趣，對處理字串作用比較大，我們可以花一點時間瞭解一下。正則表示式是可以匹配文字片段的一組規則。最簡單的正則表示式就是一個字串，能匹配自身。比如字串a='迢遞嵩高下，歸來且閉關'，可以匹配字串b='迢遞嵩高下，歸來且閉關'。

python re庫（正則表示式）入門

正則表示式（英文名稱：regular expression，regex，RE）是用來簡潔表達一組字串特徵的表示式。最主要應用在字串匹配中。 \d 數字：[0-9] \D 非數字： [^0-9] \s 空白字元：[ \t\n\x0B\f\r] \S 非空白字元：[^\s] \w 單詞字

python中re模組的使用（正則表示式）

一、什麼是正則表示式？正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式(規則)的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。二、正則表示式的匹配規則 1.表示字元

（轉）應該是目前最詳細的（正則表示式）語音視訊講解教程

（轉）應該是目前最詳細的（正則表示式）語音視訊講解教程優酷線上地址： http://v.youku.com/v_show/id_XMzg2ODE4MTQ5Mg==.html?x&sharefrom=android&sharekey=a9c982b1c99597d3e1b

python爬蟲5——正則表示式

正則表示式很好用，之前沒有體會到它的強大，在寫原生的servlet程式，呼叫微服務時，要經常拼接字串，寫sql，需求轉換成程式碼，沒有個靈活的工具處理，真的是會被煩死的。就用sublime_txt +正則表示式，賊好用！為什麼要學正則表示式實際上爬蟲一共就四個主要步驟：

【知識積累】（二）、深入Regex（正則表示式）

\：將下一個字元標記符、或一個向後引用、或一個八進位制轉義符。例如，“\\n”匹配\n。“\n”匹配換行符。序列“\\”匹配“\”而“\(”則匹配“(”。即相當於多種程式語言中都有的“轉義字元”的概念。 ^：匹配輸入字串的開始位置。如果設定了RegExp物件的Multiline屬性，^也匹配“\n

【知識積累】（一）、瞭解Regex（正則表示式）

一、正則表示式簡介一種可以用於模式匹配和替換的規範，由普通字元 + 特殊字元構成一個模板，用於對目標字串進行匹配、查詢、替換、判斷。原始碼：JDK1.4中的java.util.regex下的Pattern和Matcher類。二、常用語法 1、字元取值範圍 [abc]：表示可能是a

js實驗-表單驗證（正則表示式）

<!DOCTYPE html> <html lang="en"> <head> <title>Document</title> </head> <script src="./1.js"></s

Python爬蟲與正則表示式

Python爬蟲與正則表示式一.Python中萬用字元的使用 1.表示方式表示意義 * 匹配0到任意字元 ? 匹配單個字元

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

驗證URL連結和IP有效性的JS程式碼（正則表示式）

#js驗證一個URl字串是否有效 function isValidURL(url){ var urlRegExp=/^((https|http|ftp|rtsp|mms)?:\/\/)+[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+

從零開始的全棧工程師——js篇（正則表示式）

正則就是一條規則用來檢驗字串的格式目標就是字串只要是通過表單提交的資料都是字串1.正則定義var reg = new RegExp( )var reg = /格式/ <--簡寫 2.正則的方法兩大功能：一個是匹配匹配成功就是true 第二個是捕獲如果有就拿出來test(

JS: RegExp（正則表示式）

RegExp語法（包含ES2018標準）注意：本次所有程式碼都僅在Chrome 70中進行測試正則表示式是什麼？正則表示式是用於匹配字串中字元組合的模式。（mdn）簡單來說，正則表示式是用來提取、捕獲文字（匹配字元）的。建立：字面量：let regex = / pattern / flag

Python爬蟲（正則表示式）