學習python爬蟲筆記1----豆瓣TOP250

阿新 • • 發佈：2021-07-31

# Author:KRL
# -*- codeing = utf-8 -*-
# @Time :2021/7/3020:13
# @Author :MI
# @Site :
# @File :doubantop250.py
# @Software :PyCharm

# 拿到網頁原始碼 requests
# 利用re提取我們需要的內容 re
import requests
import re
import csv



url = "https://movie.douban.com/top250"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
}

resp = requests.get(url,headers=headers)
page_content = resp.text
# print(resp.text)

# 解析資料
obj = re.compile(r'<li>.*? <div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?'
                 r'<p class="">(?P<director>.*?);&nbsp;&nbsp;(?P<actors>.*?)<br>(?P<years>.*?)'
                 r'&nbsp;/&nbsp;(?P<country>.*?)&nbsp;/&nbsp;(?P<style>.*?)</p>.*?'
                 r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
                 r'<span>(?P<Number_of_comments>.*?)</span>.*?<span class="inq">(?P<motto>.*?)</span>',re.S)

# 開始匹配
result = obj.finditer(page_content)

# 寫入CSV 為資料分析做準備
f = open("data.csv",mode="w",encoding='utf-8')
csvwriter = csv.writer(f)

for it in result:
    # print(it.group("name"))
    # print(it.group("director").strip())
    # print(it.group("actors"))
    # print(it.group("years").strip())
    # print(it.group("country"))
    # print(it.group("style").strip())
    # print(it.group("score").strip())
    # print(it.group("Number_of_comments"))
    # print(it.group("motto"))
    dic = it.groupdict()
    dic['director'] = dic['director'].strip()
    dic['years'] = dic['years'].strip()
    dic['style'] = dic['style'].strip()
    dic['score'] = dic['score'].strip()
    csvwriter.writerow(dic.values())

f.close()
print('done!')

學習python爬蟲筆記1----豆瓣TOP250

# Author:KRL# -*- codeing = utf-8 -*-# @Time :2021/7/3020:13# @Author :MI# @Site :# @File :doubantop250.py# @Software :PyCharm# 拿到網頁原始碼 requests# 利用re提取我們需要的內容 reimport requestsimpo

Python爬蟲——爬取豆瓣top250完整程式碼

# -*- coding = utf-8 -*- # 解析網頁 from bs4 import BeautifulSoup as bf # 正則表示式 import re # Excel表格操作

python 爬蟲爬取豆瓣Top250榜單

python 爬蟲爬取豆瓣Top250榜單這是一個小作業。 request模組使用request.get(url)可以爬取一個網址的資訊

Python 爬蟲儲存SQLite - 豆瓣電影Top250

from bs4 import BeautifulSoup#網頁解析，獲取資料 import re#正則表示式，進行文字匹配

python爬蟲筆記（4-1）bs4模組

參考：https://www.jianshu.com/p/9254bdc467b2 說明： Beautiful Soup 4.4.0 文件： https://beautifulsoup.readthedocs.io/zh_CN/latest/

python爬蟲系列之豆瓣電影top250原始碼

import requests import re import csv url = \'https://movie.douban.com/top250?start=0&filter=\' for i in range(0,226,25):

爬蟲筆記1

1.get請求，沒有引數 package Demo1.CrawlerDemo1; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils;

學習Python爬蟲的幾點建議

爬蟲是大家公認的入門Python最好方式，沒有之一。雖然Python有很多應用的方向，但爬蟲對於新手小白而言更友好，原理也更簡單，幾行程式碼就能實現基本的爬蟲，零基礎也能快速入門，讓新手小白體會更大的成就感

【Python爬蟲筆記】一、驗證碼識別

技術標籤：【Python】一、OCR技術 OCR（Optical Character Recognition，光學字元識別）是指電子裝置（例如掃描器或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀

[ python] 爬蟲筆記（五) 資料解析之xpath解析

技術標籤：爬蟲學習筆記pythonxpath爬蟲聚焦爬蟲爬取頁面中指定的內容編碼流程：指定url——發起請求——獲取響應資料——資料解析——進行持久化儲存

[ python] 爬蟲筆記（三) 資料解析之正則解析

技術標籤：爬蟲學習筆記python大資料爬蟲聚焦爬蟲爬取頁面中指定的內容編碼流程：指定url——發起請求——獲取響應資料——資料解析——進行持久化儲存

python爬蟲爬取豆瓣一週榜單

技術標籤：pythonpython爬蟲 #首先準備request庫和lxml庫 import requests from lxml import etree

004爬蟲之獲取豆瓣TOP250電影資料

今天我們繼續通過正則表示式解析頁面原始碼，獲取的網頁為豆瓣TOP250，具體網址為：https://movie.douban.com/top250

學習python-爬蟲

爬蟲04 1.爬蟲介紹 python是做爬蟲比較方便，很多爬蟲的庫。其次java、go http協議

python爬蟲學習（一）request、re、csv豆瓣top250案例

思路：通過requests獲取html前端程式碼，通過re進行正則匹配，最後儲存進csv中

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request