【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

阿新 • • 發佈：2019-02-20

Requests獲取網頁資料

運用Requests獲得網頁

import requests
##獲取單個網頁資料
def get_one_page(url):
    response = requests.get(url)
    return response.text

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)
if __name__ == '__main__':
    main()

加入異常處理和響應資訊確認，將get_one_page()函式修改為

from requests.exceptions import RequestException
def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

執行獲得網頁資料成功

這裡寫圖片描述

正則表示式匹配資料

正則表示式學習參看

這裡

進入貓眼電影網->TOP100榜
按F12開啟審查元素工具
觀察原始碼發現每部影片資訊包含在一個dd標籤內
這裡寫圖片描述
展開結構得到如下內容

<dd>
    <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王別姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" 
 alt="" class="poster-default" />
      <img data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王別姬" class="board-img" />
    </a>
    <div class="board-item-main">
        <div class="board-item-content">
        <div class="movie-item-info">
            <p class="name"><a href="/films/1203" title="霸王別姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王別姬</a></p>
            <p class="star">
                主演：張國榮,張豐毅,鞏俐
            </p>
    <p class="releasetime">上映時間：1993-01-01(中國香港)</p>    
    </div>
    <div class="movie-item-number score-num">
        <p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>
    </div>
    </div>
</dd>

於是構建正則表示式函式

import re
def parse_one_page(html):
    '''進行正則函式匹配'''
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>' #排名
                         +'.*?data-src="(.*?)".*?name"><a' #圖片
                         +'.*?}">(.*?)</a>'  #名字
                         +'.*?star">\s*(.*?)\s*</p>' #主演
                         +'.*?releasetime">(.*?)</p'  #上映時間
                         +'.*?integer">(.*?)</i'  #排名個位
                         +'.*?fraction">(.*?)</i>.*?</dd>', re.S)  #排名小數點位
    items = re.findall(pattern, html)
    return items

主函式修改為

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(parse_one_page(html))

獲得輸出

正則表示式獲取資料

資料格式化

可以發現正則表示式給出的是元組列表
嘗試對資料進行格式化處理

def parse_one_page(html):
    '''進行正則函式匹配'''
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>' #排名
                         +'.*?data-src="(.*?)".*?name"><a' #圖片
                         +'.*?}">(.*?)</a>'  #名字
                         +'.*?star">\s*(.*?)\s*</p>' #主演
                         +'.*?releasetime">(.*?)</p'  #上映時間
                         +'.*?integer">(.*?)</i'  #排名個位
                         +'.*?fraction">(.*?)</i>.*?</dd>', re.S)  #排名小數點位
    items = re.findall(pattern, html)
    #格式化輸出
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3][3:],
            'times': item[4][5:15],
            'ranks': item[5]+item[6]
        }

相應的主函式修改成

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)

執行得到
資料格式化結果

多頁面爬取

下面將資料從1-10擴充套件到1-100
研究網址發現，從第2頁開始網址變為

def one_page(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)

def main():
    for i in range(10):
        one_page(i*10)

獲得輸出

這裡寫圖片描述

儲存為檔案

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()
    ##讓json輸出中文而非Unicode碼
    ##在open中加入encoding='utf-8'  dumps中加入ensure_ascii=False

one_page函式相應修改

def one_page(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)

開啟results.txt即看到結果
這裡寫圖片描述

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【JS學習筆記】正則表示式

1，符號標記組一 ^：位於字串開頭，表示非 $：位於字串結束，正則分組（），$1 var myString1 = "2012,2013,2014"; var theRegExp = /(\d{4})/g; //()分組標記$1 var myStri

【Linux學習四】正則表示式

環境　　虛擬機器：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4 一、grep：顯示匹配行v：反顯示e：使用擴充套件正則表示式E：不使用正則表示式匹配操作符 \ 轉義字元 . 匹配任意單個字元 [1249a]，[^12],[a

【程式語言學習——python】正則表示式小作業

參考資料 https://www.cnblogs.com/tina-python/p/5508402.html 原資料目標將如上混雜在一列的資料按特徵分隔開。程式碼 import xlrd import xlwt xlsfile=r'C:\Users\Ad

【學習心得】正則表示式小結

---------------------- android培訓、java培訓、期待與您交流！ ---------------------- 畢老師講解的正則表示式是利用在java.lang.String類中的matches(String regex)方法（匹配）sp

【選擇器小結】正則表示式、XPath選擇器、CSS選擇器小結和使用場景

$               &

【十分鐘學會】正則表示式字元匹配攻略

閱讀建議：看一下正則表示式基礎，有一定的基本概念，效果最佳。正則表示式是匹配模式，要麼匹配字元，要麼匹配位置。請記住這句話。然而關於正則如何匹配字元的學習，大部分人都覺得這塊比較雜亂。畢竟元字元太多了，看起來沒有系統性，不好記。本

【過濾敏感詞】正則表示式

最近做了一個遊戲聊天功能，其中有個過濾敏感字型的需求，其實這個功能很簡單，完全前端去控制，傳送前把文字過濾一次，後端只轉發就好。一.重要性正則表示式在程式設計中經常會用到如Web前端的合法輸入檢測【郵箱檢測等】如遊戲聊天中的遮蔽字型等二.學習正則表示式規則，掌握

【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

正則化在訓練資料不夠多時，或者過度訓練時，常常會導致overfitting（過擬合）。隨著訓練過程的進行，模型複雜度增加，在train data上的error漸漸減小，但是在驗證集上的err

【Java工具類】----正則表示式校驗工具類

/** * @Title: RegexValidateUtil.java * @Package org.csun.nc.util * @Description: TODO * @author chisj [email protected] * @da

【JavaScript小專案】正則表示式實現使用者註冊輸入資訊驗證（包含彈窗和innerHTML驗證）

本博主要是運用正則表示式，登陸介面進行出生日期選擇，用到年月日的三級聯動，第一種驗證方式用到的innerHTML的的動態驗證輸入資訊，第二種驗證方式利用陣列彈窗驗證。效果：圖1.1圖1.2圖1.3圖1.4程式碼：登入頁面的login.html的，主要是年月日三級聯動 <

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

【PHP篇】正則表示式

$rex=”/gg*d/i”表示匹配到g（G）開始d(D)結束且中間只能有G(D)出現任意次,不區分大小寫 1、定界符號：（1）/ 內容 / （2）|| （3）{ } （4）等除字母、數字、“\”以外的字元//必須成對出現 2、內容裡

【速記表格】正則表示式

正則表示式由一些普通字元和一些元字元（metacharacters）組成。普通字元包括大小寫的字母和數字，而元字元則具有特殊的含義，我們下面會給予解釋。在最簡單的情況下，一個正則表示式看上去就是一個普通的查詢串。例如，正則表示式"testing"中沒有包含任何元字元，它可以匹配"testi

【PHP】正則表示式判斷網址是否帶http://或https://

// 匹配http(s)的表示式 $preg = "/^http(s)?:\\/\\/.+/"; 示例： $url = "https://www.baidu.com/"; $preg = "/^http(s)?:\\/\\/.+/"; if(preg_match($preg,$

【PHP】正則表示式匹配標籤

// 匹配<img>標籤的表示式 $preg = "/<img.*?src=[\'|\"](.*?(?:[\.gif|\.jpg|\.png]))[\'|\"].*?[\/]?>/i"; 示例： $img='<div class="div">

【PHP】正則表示式匹配最後一張圖片並替換

// 要搜尋的內容 $content = '<div class="div"><img class="img" width="200" height="100" src="./../images/img1.jpg" /> <img class="img" w

【轉】正則表示式–零寬斷言詳解

零寬斷言的意思是（匹配寬度為零，滿足一定的條件/斷言）我也不知道這個詞語是那個王八蛋發明的，簡直是太拗口了。零寬斷言用於查詢在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們像\b,^,$那樣用於指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它

【學習筆記】正則化

正如我們之前在《深入淺出的資料分析》中的筆記提到過的一樣，一個迴歸模型兼具解釋功能和預測功能。解釋功能就是對當前的資料進行擬合，而預測功能則是對未出現的資料進行預測。在一個神經網路模型中我們同樣也可以設定我們的側重點：如果讓模型具有更強的解釋功能，我們就需要mi

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料

正則表示式匹配資料

正則表示式學習參看 這裡

資料格式化

多頁面爬取

儲存為檔案

相關推薦

正則表示式學習參看

這裡