豆瓣top250爬取

阿新 • • 發佈：2021-11-02

一、電影名字爬取

import requests
import re

headers = {
	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40"
}

url = "https://movie.douban.com/top250" 

# 獲取html頁面
resp = requests.get(url,headers=headers)
page_contenr = resp.text

# 解析資料
obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>',re.S)

# 開始匹配
result = obj.finditer(page_contenr)
for i in result:
	print(i.group("name"))

resp.close()

二、爬取年份

import requests
import re

headers = {

	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40"
}

url = "https://movie.douban.com/top250" 

resp = requests.get(url,headers=headers)
page_contenr = resp.text

obj = re.compile(
# 一行寫不下時，換行接著寫
r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?'
r'<p class="">.*?<br>(?P<year>.*?)&nbsp'
,re.S)


result = obj.finditer(page_contenr)
for i in result:
	print(i.group("name"))
        # strip()去除空格
	print(i.group("year").strip())

resp.close()

三、將資料存入csv中

import requests
import re
import csv

headers = {

	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40"
}

url = "https://movie.douban.com/top250" 

resp = requests.get(url,headers=headers)
page_contenr = resp.text

obj = re.compile(
r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?'
r'<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'
r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
r'<span>(?P<num>.*?)人評價</span>'
,re.S)


result = obj.finditer(page_contenr)

# 寫的模式開啟一個檔案
f = open("data.csv",mode="w")

# csv一種以逗號分隔按行儲存的文字檔案，csv方式寫入
csvwriter = csv.writer(f)

for i in result:
        # 將結果變為字典型	
	dic = i.groupdict()

        # 其中key為year的結果前有大量空格，將空格刪除後的結果賦給year
	dic['year'] = dic['year'].strip()
    
        # 將資料一行一行寫入 
	csvwriter.writerow(dic.values())

resp.close()

豆瓣top250爬取

一、電影名字爬取 import requests import re headers = { \"User-Agent\":\"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.

豆瓣資料爬取專案——軟體系統設計方案解決

一、概述這篇文章主要是針對一個對於豆瓣的電影資料進行爬取的爬蟲程式，將進行軟體系統的分析和設計，闡述使用的設計模式、軟體架構風格與策略，並採用檢視來描述軟體系統的模型。進行資料庫和核心資料結構的設計分

python網路爬蟲設計————豆瓣小說爬取

選題的背景為什麼要選擇此選題？要達到的資料分析的預期目標是什麼？小說是文化的一種載體,在古今中外的歷史中都佔據著重要的地位。人蒙對小說的需求也並不相同，如何在大量的小說裡選取自己喜歡的小說，成為了問題

爬取資料分析——將豆瓣電影top250以詞雲的方式展現

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

Python爬取豆瓣Top250電影資訊

1、爬取豆瓣Top250電影資訊以文字形式儲存資料：豆瓣電影 2、程式碼 import requests

python使用re模組爬取豆瓣Top250電影

　　爬蟲四步原理：　　　　1.傳送請求：requests 　　　　2.獲取相應資料：對方及其直接返回

Python爬蟲——爬取豆瓣top250完整程式碼

# -*- coding = utf-8 -*- # 解析網頁 from bs4 import BeautifulSoup as bf # 正則表示式 import re # Excel表格操作

scrapy爬取豆瓣top250電影

技術標籤：程式人生剛開始接觸爬蟲，第一次使用scrapy 爬取資料一、步驟安裝scrapy

豆瓣讀書top250資料爬取與視覺化

爬蟲–scrapy 題目：根據豆瓣讀書top250,根據出版社對書籍數量分類，繪製餅圖搭建環境

爬取豆瓣TOP250電影

自己跟著視訊學習的第一個爬蟲小程式，裡面有許多不太清楚的地方，不如怎麼找到具體的電影名字的，那麼多級關係，怎麼以下就找到的是那個div呢？

使用requests庫爬取豆瓣電影Top250相關資料

使用基本的requests庫和re庫爬取豆瓣電影Top250 目錄re庫豆瓣電影top250電影天堂 re庫

python3爬蟲-6.使用requests和BeautifulSoup爬取豆瓣Top250電影

初次探查這次我們就要來使用上次說的BeautifulSoup + Reuqests進行爬取豆瓣TOP250電影

Python爬取豆瓣音樂TOP250，爬取的資料儲存到csv檔案和xls檔案

爬取的目標網址：https://music.douban.com/top250 利用lxml庫，獲取前10頁的資訊，需要爬取的資訊包括歌曲名、表演者、流派、發行時間、評分和評論人數，把這些資訊存到csv和xls檔案

python 爬蟲爬取豆瓣Top250榜單

python 爬蟲爬取豆瓣Top250榜單這是一個小作業。 request模組使用request.get(url)可以爬取一個網址的資訊

Python3.8 爬取豆瓣電影TOP250 練手爬蟲

1 #!/usr/bin/env python 2 # encoding=utf-8 3 import requests 4 import re 5 import codecs 6 from bs4 import BeautifulSoup

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

完整原始碼： #2022-03-01 xpath爬取豆瓣top250電影排行榜 import requests from lxml import etree

python爬取豆瓣top250資訊並存入資料庫中 | sqlite3

注：本文承接上文：初學python爬蟲，爬取“豆瓣電影 Top 250”相關資訊，並下載電影封面

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

Python爬取豆瓣視訊資訊程式碼例項

這篇文章主要介紹了Python爬取豆瓣視訊資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python多執行緒爬取豆瓣影評API介面

爬蟲庫使用簡單的requests庫，這是一個阻塞的庫，速度比較慢。解析使用XPATH表示式