完整原始碼：

#2022-03-01 xpath爬取豆瓣top250電影排行榜
import requests
from lxml import etree
import time
for a in range(10): 
    headers={'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
     #1、指定url
    url='https://movie.douban.com/top250?start={}&filter= 
'.format(a*25)
    #2、發起請求 請求對應的url是攜帶引數的，並且請求過程中處理了引數
    response = requests.get(url=url,headers=headers)
    #     print(response.text)
    html=etree.HTML(response.text)
    divs=html.xpath('//*[@id="content"]/div/div[1]/ol/li')#這個屬性裡面有雙引號，外面就用單引號
    #print(divs)
    #拿到每一個div
    for div in divs:
        title 
=div.xpath('./div/div[2]/div[1]/a/span[1]/text()') [0]#標題  打印出來是一個列表，我們要訪問列表裡的元素，只有一個元素，所以要加一個[0]
        year=div.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]#年份
        pj=div.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0]#評價
        href=div.xpath('./div/div[2]/div[1]/a/@href')[0]#連結
        print(title,year,pj,href)
        time.sleep( 
3)
        with open(r"dbmovie.txt","a",encoding="utf-8") as f: #使用with open（）新建物件f ，a 表示追加
            f.write("{},{},{},{}".format(title,year,pj,href))#將列表中的資料迴圈寫入到文字檔案中
            f.write("\n")

分析：

1、訪問網站資訊

url=“https://movie.douban.com/top250”

import requests
from lxml import etree
headers={'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
 #1、指定url
url='https://movie.douban.com/top250'
#2、發起請求 請求對應的url是攜帶引數的，並且請求過程中處理了引數
response = requests.get(url=url,headers=headers)
print(response.text)

2、解析資料，拿到所有div標籤

import requests
from lxml import etree
headers={'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
 #1、指定url
url='https://movie.douban.com/top250'
#2、發起請求 請求對應的url是攜帶引數的，並且請求過程中處理了引數
response = requests.get(url=url,headers=headers)
#     print(response.text)
html=etree.HTML(response.text)
divs=html.xpath('//*[@id="content"]/div/div[1]/ol/li')#這個屬性裡面有雙引號，外面就用單引號
print(divs)

copy得到的xpath是：//*[@id="content"]/div/div[1]/ol/li[1]這個是一個div，要所有的div：

就改成：//*[@id="content"]/div/div[1]/ol/li，去掉[1]

3、找到單個div，並查詢所有需要的欄位

import requests
from lxml import etree
import time
headers={'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
 #1、指定url
url='https://movie.douban.com/top250'
#2、發起請求 請求對應的url是攜帶引數的，並且請求過程中處理了引數
response = requests.get(url=url,headers=headers)
#     print(response.text)
html=etree.HTML(response.text)
divs=html.xpath('//*[@id="content"]/div/div[1]/ol/li')#這個屬性裡面有雙引號，外面就用單引號
#print(divs)
#拿到每一個div
for div in divs:
    title=div.xpath('./div/div[2]/div[1]/a/span[1]/text()') [0]#標題  打印出來是一個列表，我們要訪問列表裡的元素，只有一個元素，所以要加一個[0]
    year=div.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]#年份
    pj=div.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0]#評價
    href=div.xpath('./div/div[2]/div[1]/a/@href')[0]#連結
    print(title,year,pj,href)
    time.sleep(3)
    with open(r"dbmovie11.txt","a",encoding="utf-8") as f:
        f.write("{},{},{}".format(title,year,pj,href))
        f.write("\n")

其他欄位也是一樣的方法：點選按鈕，在網頁中點選你想查詢的部分，在Elements對應程式碼中點選右鍵，Copy->Copy Xpath，

4、儲存資料

import requests
from lxml import etree
import time
for a in range(10): 
    headers={'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
     #1、指定url
    url='https://movie.douban.com/top250?start={}&filter='.format(a*25)
    #2、發起請求 請求對應的url是攜帶引數的，並且請求過程中處理了引數
    response = requests.get(url=url,headers=headers)
    #     print(response.text)
    html=etree.HTML(response.text)
    divs=html.xpath('//*[@id="content"]/div/div[1]/ol/li')#這個屬性裡面有雙引號，外面就用單引號
    #print(divs)
    #拿到每一個div
    for div in divs:
        title=div.xpath('./div/div[2]/div[1]/a/span[1]/text()') [0]#標題  打印出來是一個列表，我們要訪問列表裡的元素，只有一個元素，所以要加一個[0]
        year=div.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]#年份
        pj=div.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0]#評價
        href=div.xpath('./div/div[2]/div[1]/a/@href')[0]#連結
        print(title,year,pj,href)
        time.sleep(3)
        with open(r"dbmovie.txt","a",encoding="utf-8") as f: #使用with open（）新建物件f ，a 表示追加
            f.write("{},{},{},{}".format(title,year,pj,href))#將列表中的資料迴圈寫入到文字檔案中
            f.write("\n")

1、分析網站url可得到，25條資料為一頁，一共10頁，所以用for迴圈來儲存每一頁資料：

url='https://movie.douban.com/top250?start={}&filter='.format(a*25)

2、用with open來開啟一個物件檔案

5、爬取完成

注意：

1、這種最簡單的訪問方式，很容易導致ip被封，請謹慎執行！

（執行3-5次，好像沒啥問題，執行多了，就封了。。。）

2、可以嘗試使用selenium方式來訪問

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

分析：

1、訪問網站資訊

2、解析資料，拿到所有div標籤

3、找到單個div，並查詢所有需要的欄位

4、儲存資料

5、爬取完成

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

python3爬蟲-6.使用requests和BeautifulSoup爬取豆瓣Top250電影

爬蟲實踐02 | xpath爬取某大學新聞網站

Python爬取豆瓣Top250電影資訊

python使用re模組爬取豆瓣Top250電影

scrapy爬取豆瓣top250電影

爬取豆瓣TOP250電影

爬取豆瓣動畫電影排行榜的海報

Python爬蟲——爬取豆瓣top250完整程式碼

python 爬蟲爬取豆瓣Top250榜單

python爬蟲學習01--電子書爬取

Python爬蟲入門教程：爬取豆瓣小說文學

爬蟲——正則表示式爬取豆瓣電影TOP前250的中英文名

python爬取豆瓣top250資訊並存入資料庫中 | sqlite3

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

Python爬取豆瓣急先鋒電影評論，龍叔的電影居然分這麼低

01-21 爬蟲專案-爬取豆瓣電影的電影詳細資料

Python3.8 爬取豆瓣電影TOP250 練手爬蟲

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

爬蟲爬取豆瓣影院的相關電影資訊

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

分析：

1、訪問網站資訊

2、解析資料，拿到所有div標籤

3、找到單個div，並查詢所有需要的欄位

4、儲存資料

5、爬取完成

相關推薦