爬蟲_urllib中ajax的get請求

阿新 • • 發佈：2022-05-23

1.爬取豆瓣電影第一頁資料並下載

#get請求
#獲取豆瓣電影的第一頁的資料並且保持起來
import urllib.request
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36 
'
}
# (1) 請求物件的定製
request = urllib.request.Request(url=url,headers=headers)
# (2) 獲取響應的資料
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
# (3) 資料下載到本地
# open方法預設情況下使用的是gbk的編碼，如果我們要想儲存漢字，那麼需要在open方法中制定編碼格式為utf-8
# encoding = 'utf-8'
ft = open('douban.json','w',encoding=' 
utf-8')
ft.write(content)

2.爬取豆瓣電影前10頁資料並下載本地

經過分析獲取請求介面地址：https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20

#get請求
#獲取豆瓣電影的前10頁的資料並且保持起來
import urllib.request
import urllib.parse
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20 
'
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=20&limit=20
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=40&limit=20
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=60&limit=20

#page  1  2  3  4
#start 0  20 40 60
#start (page-1)*20

#=======================
#@description:請求物件定製
#@author:tnwner
#@date:2022-05-23 13:19
#======================
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&'
    data = {
        'start':(page-1)*20,
        'limit':20
    }
    data = urllib.parse.urlencode(data)
    url = base_url+data
    print(url)
    headers= {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request
#=======================
#@description:獲取響應的資料
#@author:tnwner
#@date:2022-05-23 13:19
#======================
def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(page,content):
    with open('douban_' + str(page) + '.json','w',encoding='utf-8') as fp:
        fp.write(content)

if __name__ == '__main__':
    start_input = int(input('請輸入起始的頁碼'))
    end_inout = int(input('請輸入結束的頁碼'))
    for page in range(start_input,end_inout+1):
        #請求物件的定製
        request = create_request(page)
        #獲取響應的資料
        content = get_content(request)
        #下載
        down_load(page,content)

爬蟲_urllib中ajax的get請求

1.爬取豆瓣電影第一頁資料並下載 #get請求 #獲取豆瓣電影的第一頁的資料並且保持起來

爬蟲_urllib的get請求

1.get請求的quote方法 quote（）方法：是將漢字轉換成unicode編碼 import urllib.request import urllib.parse

Python網路爬蟲過程中，構建網路請求的時候，引數`stream=True`的使用

大家好，我是皮皮。一、前言前幾天在Python最強王者交流群【德善堂小兒推拿-瑜亮老師】分享了一個關於Python網路爬蟲的問題，這裡拿出來給大家分享下，一起學習。

Python網路爬蟲中重新請求，請問有什麼比較好的解決方法？

大家好，我是皮皮。一、前言前幾天在Python鑽石群有個叫【某嘟】的粉絲問了一個關於Python網路爬蟲中重新請求的問題，這裡拿出來給大家分享下，一起學習。

Live-Server-5-SpringBoot中一個請求的流程

Live專案： 1. Idea IDE搭建SpringBoot 2. Mybatis-generator逆向生成Pojo、Mapper介面和XML等 3. WebMvcConfigurerAdapter資源攔截

爬蟲:對網站加密請求的分析

爬蟲:對網站加密請求的分析引語: 最近因為有一些需求,需要對某些網站的資料進行抓取然後分析使用者的行為之類的.所以對遇到的一些問題進行一個記錄,第一次處理這種加密的請求,也花費了自己不少時間,做一個處理過程的

dubbo中zookeeper請求超時問題：mybatis+spring連線mysql8.0.15的配置

這兩天準備複習一下java,所以寫一個採用dubbo的商場專案練練手，卻卡第一個測試上，啟動provider服務和Consumer服務，請求介面卻始終報zookeeper請求超時錯誤（dubbo+zookeeper服務端重複呼叫三次），經過排查，我的

Django+uni-app實現資料通訊中的請求跨域的示例程式碼

前後端分離的模式下，後端使用Django RestFramework，前端使用uni-app來進行APP的開發。

python網路爬蟲 Scrapy中selenium用法詳解

引入在通過scrapy框架進行某些網站資料爬取的時候，往往會碰到頁面動態資料載入的情況發生，如果直接使用scrapy對其url發請求，是絕對獲取不到那部分動態加載出來的資料值。但是通過觀察我們會發現，通過瀏覽器進行

使用Python爬蟲庫requests傳送請求、傳遞URL引數、定製headers

首先我們先引入requests模組 import requests 一、傳送請求 r = requests.get(\'https://api.github.com/events\') # GET請求

postman中POST請求時引數包含引數list設定方式

如下所示：圖中params包含多個引數，具體如下： {\"rzrq\":\"2019-01-21\",\"rzlx\":\"1\",\"nr\":\"\",\"jsonStr\":\"[{\'gzlx\':\'1\',\'gznr\':\'11\',\'gzcg\':\'11\',\'czwt\':\'11\',\'yjjy\':\'11\',\'rz