python爬蟲學習（一）request、re、csv豆瓣top250案例

阿新 • • 發佈：2021-06-23

思路：通過requests獲取html前端程式碼，通過re進行正則匹配，最後儲存進csv中

首先匯入requests、re、csv

之後再定義一個爬取的方法函式，通過觀察url請求發現引數有start和filter,發現傳遞的引數中以25作為基準，所以在這裡定義一個方法用來傳遞引數

def get_data(num):
    param = {
        "start": num,
        "filter": ""
    }

    url = "https://movie.douban.com/top250"
    header = {
        "User-Agent 
": "XXXXXXXXXXXXXXXXX"
    }
    res = requests.get(url = url,headers = header,params = param)
    page_content = res.text

    #解析資料
    obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)'
                     r'</span>.*?<p class="">.*?<br>(?P<year>.*?) 
'
                     r'&nbsp.*?<span class="rating_num" property="v:average">(?P<rate>.*?)'
                     r'</span>.*?<span>(?P<com>.*?)</span>',re.S)
    res = obj.finditer(page_content)
    f = open("doubantop250.csv",mode="a+",newline="")
    csv_writer  
= csv.writer(f)
    for i in res:
        #將資料儲存字典中
        dic = i.groupdict()
        #單獨處理year因為含有空格
        dic['year'] = dic['year'].strip()
        #print(i.group("name"))
        #print(i.group("year").strip())
        #print(i.group("rate"))
        #print(i.group("com"))
        print(dic.values())
        #將字典裡的內容寫入csv檔案中
        csv_writer.writerow(dic.values())

    f.close()

對於csv檔案來說寫入資料會出現一個空行，此時需要加上

newline=""

將資料儲存進字典中需要通過

groupdict

對於檔案的讀寫如果要累計新增內容需要用a+或a、w會覆蓋

最後再執行迴圈遍歷10次獲取250個排行榜資料儲存進csv檔案中

def start():
    for test in range(10):
        get_data(test)
if __name__ == "__main__":
    start()

python爬蟲學習（一）request、re、csv豆瓣top250案例

思路：通過requests獲取html前端程式碼，通過re進行正則匹配，最後儲存進csv中

python爬蟲學習（一）requests

不是python自帶的，需要安裝pip install requests import requests url = \'https://cn.bing.com/search?q=%E8%B1%86%E7%93%A3\'

python爬蟲學習（一）資料解析

re解析（執行速度最快）　　.　　匹配換行符以外的任意字元　　\\w　匹配字母或數字或下劃線

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

python爬蟲學習（一）requests+bs4爬取圖片

import requests from bs4 import BeautifulSoup import time url = \"http://www.bizhi360.com/meinv/\" resp = requests.get(url)

python爬蟲學習（一）爬取高清桌布（各種主流大小的高清圖）

from bs4 import BeautifulSoup import requests import time import os def get_photo(key): url = \"https://desk.zol.com.cn/meinv/\"+str(key)+\".html\"

Python學習（一）：型別檢驗、字串處理

1.Python檢驗字串使用方法type（）； a = \"learnpythonstart!\" type(\'a\') = class \'str\' 2.Python字串轉換，例如整數型 12轉為字串

爬蟲基礎（一）request

request 模組： python中遠端的一款基於網路請求的模組，功能非常強大，效率高。

Python快速學習（一）變數

技術標籤：程式語言基礎快速入門python程式語言本文將帶大家學習Python中的變數。在閱讀本文前，作者預設大家都安裝好了Python並配置好了Pycharm編譯器。

python爬蟲學習（7）

技術標籤：python爬蟲學習python python爬蟲學習（待完成）記錄時間：2021年2月7日

python爬蟲實戰（一）--TXT小說下載

學習了Python3 爬蟲實戰教程_w3cschool的教程第一次做爬蟲，練手網站是筆趣閣（http://www.ibiqu.net/），反正他們也是爬別人的 ^_^!

python爬蟲學習（六）：xpath解析

xpath解析原理： - 1.例項化一個etree的物件，且需要將被解析的頁面原始碼資料載入到該物件中。

python爬蟲學習（七）：驗證碼識別

反爬機制：驗證碼.識別驗證碼圖片中的資料，用於模擬登陸操作。識別驗證碼的操作：

python學習（一）——簡介、物件與引用

技術標籤：python 目錄 python簡介pythonpython特點python2與python3python直譯器python開發環境(IDE)

CMake學習筆記（一）基本概念介紹、入門教程及CLion安裝配置

什麼是構建系統在軟體開發中，構建系統（build system）是用來從原始碼生成使用者可以使用的目標的自動化工具。目標可以包括庫、可執行檔案、或者生成的指令碼等等。

4、nodejs爬蟲JSDOM（一）

1. 類庫介紹 1. web專案，基於express4 ejs模板2. 通過request抓取網頁3. 通過jQuery, jsdom, htmlparser提取網頁內容

HotSpot學習（一）：編譯、啟動與除錯

前文 JVM對許多Java程式設計師是一個黑盒子，經常需要與它打交道，但是又搞不清內部的原理。

JavaScript、CSS、DOM高階篇學習（一）----事件

一、事件流 1、冒泡型事件（dubbed bubbling） 1 <!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\"\"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">

Python學習（4）序列：索引、切片、序列相加、乘法（Multiplying）、檢查某個元素是否是序列的成員（元素）、計算序列的長度和最大最小值

技術標籤：python列表程式語言 Python學習（4）序列：索引、切片、序列相加、乘法（Multiplying）、檢查某個元素是否是序列的成員（元素）、計算序列的長度和最大最小值 4.1序列序列是一塊用於存放多個值的連續

ESLint學習（一）簡介、安裝、命令列、更多

簡介 ESLint是一款開源的 JavaScriptlint工具，由 Nicholas C. Zakas 於2013 年建立。 ESLint 官方文件 About 頁面分 About 和 Philosophy 兩個部分對 ESLint 做了介紹，簡潔明瞭，值得一讀。

python爬蟲學習（一）request、re、csv豆瓣top250案例

相關推薦