requests爬取貓眼電影403錯誤解決方法

阿新 • • 發佈：2019-01-10

原始碼如下:

import requests
from requests.exceptions import RequestException


def one_page_code(url):
    try:
        page = requests.get(url)
        if page.status_code == 200:
            return page.text
        print("Failed\n狀態碼為%d"%(page.status_code))
    except RequestException:
        print("Exception")

def main():
    url = 'http://maoyan.com'
    print(one_page_code(url))

if __name__ == '__main__':
    main()

這個程式碼無論是請求百度、淘寶還是豆瓣都能正常的顯示出網頁原始碼，但是在爬取貓眼時卻返回403錯誤

原來請求網頁的過程中，忽略了很重要的一點，就是請求頭

我們在瀏覽器檢查元素中把network中的請求頭複製出來，新增到請求函式中

import requests
from requests.exceptions import RequestException


def one_page_code(url):
    try:
        header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'}
        page = requests.get(url,headers = header)
        if page.status_code == 200:
            return page.text
        print("Failed\n狀態碼為%d"%(page.status_code))
    except RequestException:
        print("Exception")

def main():
    url = 'http://maoyan.com/board/4'
    print(one_page_code(url))

if __name__ == '__main__':
    main()

就可以正常獲取到網頁的原始碼了

requests爬取貓眼電影403錯誤解決方法

原始碼如下: import requests from requests.exceptions import RequestException def one_page_code(url): try: &n

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

14-Requests+正則表達式爬取貓眼電影

ons 亂碼 aci resp 正則 app 名稱 header ascii ‘‘‘Requests+正則表達式爬取貓眼電影TOP100‘‘‘‘‘‘流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML代碼，返回結果。正則表達式分析：根據HTML代碼

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Requests+正則表達式爬取貓眼電影

none tle req boa cto asc sta int col 1 # encoding:utf-8 2 from requests.exceptions import RequestException 3 import requests

Requests+正則表示式爬取貓眼電影top100

#!/usr/bin/python #coding=utf-8 # import requests from requests.exceptions import RequestException import re import json from multiproces

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

requests+re+multiprocessing爬取貓眼電影top100

core except exce mat RoCE yield tle itl pan import re import json import requests from multiprocessing import Pool from requests.

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

python requests抓取貓眼電影

def res b- int nic status () tle proc 1. 網址：http://maoyan.com/board/4? 2. 代碼： 1 import json 2 from multiprocessing import Po

requests爬取貓眼電影403錯誤解決方法

相關推薦