python爬蟲系列之豆瓣電影top250原始碼

阿新 • • 發佈：2022-05-27

import requests
import re
import csv

url = 'https://movie.douban.com/top250?start=0&filter='
for i in range(0,226,25):
    #總共10頁 每一頁資料25條 url裡的i表示第幾頁
    url = f'https://movie.douban.com/top250?start={i}&filter='   
    #設定請求頭
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
    resp = requests.get(url=url,headers = headers)
    #獲取頁面原始碼
    page_content = resp.text
    resp.close()
    #解析資料：主要通過正則表示式  惰性匹配拿到電影名稱上映年份以及豆瓣評分
    #先設定正則匹配規則
    obj = re.compile(r'<li>.*?<div class="item">.*? <span class="title">(?P<name>.*?)</span>'
                     r'.*?<br>(?P<year>.*?)&nbsp'
                     r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>',re.S)
    #將page_content丟到設定好的規則裡面
    result = obj.finditer(page_content)
    #將資料寫入CSV檔案  或者也可以更改為excel檔案
    f = open('date.csv',mode='a+',newline='')
    csvwrite = csv.writer(f)
    for i in result:
        dic = i.groupdict()
        dic['year'] = dic['year'].strip()
        csvwrite.writerow(dic.values())
    print('over!!') #每一頁爬取完了列印over!!
    f.close()
print('爬取完畢！~~')

python爬蟲系列之豆瓣電影top250原始碼

import requests import re import csv url = \'https://movie.douban.com/top250?start=0&filter=\' for i in range(0,226,25):

Python 爬蟲儲存SQLite - 豆瓣電影Top250

from bs4 import BeautifulSoup#網頁解析，獲取資料 import re#正則表示式，進行文字匹配

Python爬蟲系列之微信小程式逆向某優選爬蟲簽名演算法！厲害

程式碼僅供學習交流，請勿用於非法用途直接上程式碼 import hashlib from parser import parseParam

python資料視覺化豆瓣電影top250資料分析

第一篇文章裡已經通過寫python爬蟲程式獲取到了豆瓣電影Top250有關的資料，這裡對儲存在Excel裡的電影資訊進行資料分析和視覺化。

Python 爬蟲 - 豆瓣電影Top250

from bs4 import BeautifulSoup#網頁解析，獲取資料 import re#正則表示式，進行文字匹配

Python爬蟲之豆瓣電影

豆瓣電影爬蟲[GitHub] 　　豆瓣電影資料庫是目前高質量電影資訊的聚集地。對於一些視訊聚合應用、資料探勘應用等場景，豆瓣電影資料庫仍然是一個很好的選擇。

python爬蟲開發之使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100例項

使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100思路：檢視網頁原始碼抓取單頁內容

Python爬蟲——爬取豆瓣top250完整程式碼

# -*- coding = utf-8 -*- # 解析網頁 from bs4 import BeautifulSoup as bf # 正則表示式 import re # Excel表格操作

學習python爬蟲筆記1----豆瓣TOP250

# Author:KRL# -*- codeing = utf-8 -*-# @Time :2021/7/3020:13# @Author :MI# @Site :# @File :doubantop250.py# @Software :PyCharm# 拿到網頁原始碼 requests# 利用re提取我們需要的內容 reimport requestsimpo