爬蟲——正則表示式爬取豆瓣電影TOP前250的中英文名

阿新 • • 發佈：2020-12-22

正則表示式爬取豆瓣電影TOP前250的中英文名

1、首先要實現網頁的資料的爬取。新建test.py檔案

test.py

 1 import requests
 2 
 3 def get_Html_text(url,p):
 4     try:
 5         h= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg}#User-Agent隨便進入一個網頁F12->Network->選擇xxx?xxx，找到自己的User-Agent複製貼上就好了
 6 
 7         r = requests.get(url,params=p,headers=h)
 8         r.raise_for_status()
 9         r.encoding=r.apparent_encoding
10         return r.text
11     except:
12         return 'error'
13 
14 
15 
16 if __name__=='__main__':
17     url = 'https://movie.douban.com/top250'
18     for i in range(0,226,25):#實現迴圈爬取
19        p={'start':str(i),'filter':''}
20        html_text=get_Html_text(url,p)
21        if html_text!='error':
22            with open('c.txt','at',encoding='utf-8') as f:#將檔案爬取到的檔案寫入c.txt中
23                f.write(html_text)
24

2、利用正則表示式規則對爬取到的資料進行篩選，當前我們僅需要中文電影名與英文電影名。

test2.py

1 import re#這裡我們需要匯入re
2 with open ('c.txt','rt',encoding='utf-8')as f:
3     html_text=f.read()
4 pat=re.compile(r'<span class="title">(.*?)</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>',re.S)
5 mats=pat.finditer(html_text)
6 for i in mats:
7     print(i.group(1),i.group(2))

3、執行結果

爬蟲——正則表示式爬取豆瓣電影TOP前250的中英文名

正則表示式爬取豆瓣電影TOP前250的中英文名 1、首先要實現網頁的資料的爬取。新建test.py檔案

Python如何使用正則表示式爬取京東商品資訊

京東（JD.com）是中國最大的自營式電商企業，2015年第一季度在中國自營式B2C電商市場的佔有率為56.3%。如此龐大的一個電商網站，上面的商品資訊是海量的，小編今天就帶小夥伴利用正則表示式，並且基於輸入的關鍵詞來

正則表示式爬取資訊

package RegularExpression.regex;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * FileName: Regextest5 * Author:lps * Date:2022/4/13 14:50 * Sign:劉品水 Q：1944900433 */public class

Python爬蟲正則表達爬取b站所有動漫的評分

import requests import re import csv wq=1 while(wq<163): dat={ \"season_version\":\"-1\", \"spoken_language_type\":\"-1\",

初學python爬蟲，爬取“豆瓣電影 Top 250”相關資訊，並下載電影封面

注：所學的視訊教程：B站Python爬蟲基礎5天速成（2021全新合集）Python入門+資料視覺化

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

本文例項講述了Python爬蟲實現的根據分類爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

01-21 爬蟲專案-爬取豆瓣電影的電影詳細資料

技術標籤：筆記練習習題要點備註 1、網頁資訊，包括html、css等內容的檢視主要依據開發者工具；

零基礎快速入門（二）爬取豆瓣電影——python爬蟲例項

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。

Python3.8 爬取豆瓣電影TOP250 練手爬蟲

1 #!/usr/bin/env python 2 # encoding=utf-8 3 import requests 4 import re 5 import codecs 6 from bs4 import BeautifulSoup

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

完整原始碼： #2022-03-01 xpath爬取豆瓣top250電影排行榜 import requests from lxml import etree

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

Python實現的爬取豆瓣電影資訊功能案例

本文例項講述了Python實現的爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

Python利用Scrapy框架爬取豆瓣電影示例

本文例項講述了Python利用Scrapy框架爬取豆瓣電影。分享給大家供大家參考，具體如下：

Python通過正則庫爬取淘寶商品資訊程式碼例項

使用正則庫爬取淘寶商品的商品資訊，首先我們需要確定想要爬取的物件我們在淘寶裡搜尋“python”,出來的結果

Java爬取豆瓣電影資料的方法詳解

本文例項講述了Java爬取豆瓣電影資料的方法。分享給大家供大家參考，具體如下：

Python爬取豆瓣電影、演員評分，平做出視覺化圖（律師函警告）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python實戰之如何爬取豆瓣電影？本文教你

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。

凌海爬取豆瓣電影資訊

昨天寫了一個小爬蟲，爬取了豆瓣上2017年中國大陸的電影資訊，網址為豆瓣選影視，爬取了電影的名稱、導演、編劇、主演、型別、上映時間、片長、評分和連結，並儲存到MongoDB中。

Python爬蟲-正則表示式

1.正則表示式簡介 1.1 概念正則表示式是對字串操作的⼀種邏輯公式，就是⽤事先定義好的⼀些特定字符、及這些特定字元的組合，組成⼀個“規則字串”，這個“規則字串”⽤來表達對字串的⼀種過濾邏輯

使用Python爬取豆瓣電影詳細資料

# -*- codeing = utf-8 -*- # @Time :23:35 # @Auther : wyt # @File : spider.py # @Software : PyCharm from bs4 import BeautifulSoup #網頁解析，獲取資料