【Python爬蟲】採集一個優秀藝術家相互交流的網站——P站（一個正經的網站）

阿新 • • 發佈：2021-11-10

前言

總所周知, p站是日本知名的虛擬社群, 聚集了眾多來自日本, 中國, 韓國, 美國等國家的優秀藝術家。他們在p站上相互交流, 分享高清優秀插畫, 是一個正經的網站

點選領取【程式碼】【相關教程、資料】，或者對於本篇文章有疑問的同學可以私信我

環境介紹

python 3.8 – anaconda 安裝了一些模組 / 自動的配置環境變數
pycharm 2021專業版 >>> 啟用碼
requests >>> pip install requests
parsel >>> pip install parsel

開始程式碼

首先需要匯入模組

import requests     # 傳送網路請求的模組
import parsel       # 提取資料
import re

傳送請求

url_1 = 'https://www.acg-pixiv.com/tags/450.html'
response_1 = requests.get(url_1)

獲取資料

data_html_1 = response_1.text

提取資料

selector = parsel.Selector(data_html_1)
# 提取連結 屬性內容 @屬性名稱 css xpath re  

href_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@href').getall()
title_list = selector.xpath('/html/body/div/div[1]/ul/li/a/@title').getall()

詳情頁連結

for info in zip(href_list, title_list):
    # 索引取值 元組
    url_2 = 'https://www.acg-pixiv.com' + info[1]

每一個詳情頁的網頁原始碼

# content? 獲取二進位制資料
response_2 = requests.get(url_2).text

提取詳情頁中的圖片連結

selector_2 = parsel.Selector(response_2)
# 圖片連結
url = selector_2.xpath('/html/body/div/div[1]/div[1]/div/img[1]/@src').get()
print(url)

圖片連結

# 當這個程式報錯的時候
try:
    img_data = requests.get(img_url, timeout=5).content
except:
    # 圖片連結改一下
    img_url = img_url.replace('800', '400')
    img_data = requests.get(img_url).content

替換特殊字元

title = re.sub(r'[\\/:*?"<>|]', '_', info[1])

儲存資料

print(f'---------正在爬取{title}---------')
with open(f'img/{title}.jpg', mode='wb') as f:
    f.write(img_data)

【Python爬蟲】採集一個優秀藝術家相互交流的網站——P站（一個正經的網站）

前言總所周知, p站是日本知名的虛擬社群, 聚集了眾多來自日本, 中國, 韓國, 美國等國家的優秀藝術家。他們在p站上相互交流, 分享高清優秀插畫, 是一個正經的網站

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的程式碼（附原始碼）

前言今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多執行緒爬蟲，加快爬蟲速度

【Python爬蟲】拉鉤網招聘資訊資料採集

本文要點：爬蟲的基本流程 requests模組的使用儲存csv 視覺化分析展示環境介紹

【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試，男生都喜歡

好難受，上次發了做遊戲的居然沒人看，每天為了給你們寫啥，老夫心都操碎了~

【Python爬蟲】儲存格式化資料

我們一直使用 print 方法列印爬蟲獲取的資料，接下來你將把這些資料儲存到特定格式檔案中。

【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜尋結果

步驟如下：1.首先匯入爬蟲的package：requests 2.使用UA偽裝進行反反爬蟲，將爬蟲偽裝成一個瀏覽器進行上網

【Python爬蟲】爬取websockect

websockect基礎還有原理省略 PS:這裡我說下aiowebsocket這個依賴庫，堪稱垃圾中的戰鬥機，在Mac（Linux沒測試過，但是Mac的核心是Linux，放到centOS我估計也會出這個問題）上一直報錯SSL證書錯誤，在windowes上hand

【Python爬蟲】15行程式碼教你爬B站視訊彈幕，詞雲圖展示資料（附原始碼）

知識點爬蟲基本流程正則 requests >>> pip install requests jieba >>> pip install jieba

【Python爬蟲】太刺激了！本來只想爬個視訊的，誰知自己淪陷進去了（附原始碼）

知識點爬蟲基本流程 re正則表示式簡單使用 requests json資料解析方法視訊資料儲存

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

【Python爬蟲】如何把抖音漂亮的小姐姐（高清、無水印）儲存到硬盤裡，附原始碼

前言現在自媒體平臺上經常有一些視訊素材需要儲存下來，但是大部分平臺下載下來都帶上了平臺水印，影響視訊美觀。這次我們用爬蟲，可以爬到高清無水印的視訊

【彼岸美圖】二十行程式碼下載上千張高清美圖桌布【python爬蟲】

小白也能看懂的python爬蟲，從零開始爬彼岸圖網桌布美圖你是否有過以下煩惱：

【python爬蟲】遊俠網部分新聞爬取

最後效果展示【用網頁表格的形式展示爬取的資料】用pyinstaller打包成exe了【python3.6 可執行的環境多一些】

【Python爬蟲】查自己部落格每月發帖量的小程式

【前提：安裝beautifulsoup4和requests】 pip install beautifulsoup4 pip install requests 【程式碼】

Python爬蟲：抓取智聯招聘崗位資訊和要求（進階版）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

【節奏醫生】3-X《One Shift More攻略》（輪班之歌）簡譜

就沒想到 YouTube 和 SoundCloud 上都查不到中文版 OST 最後還是在群裡問到的詞曲唱（）

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

目錄 1、目標 2、Selenium webdriver說明 2.1 為什麼使用webdriver 2.2 webdriver支援瀏覽器 2.3 配置與使用說明

【Python程式設計】如何用Python寫一個可安裝檔案使行動硬碟不休眠

當我們外接行動硬碟時，有些行動硬碟或者硬碟盒是自帶休眠功能的，但是單我們需要經常去呼叫硬碟時，每五分鐘的休眠週期是我們無法忍受的，而且硬碟的頻繁啟動不僅導致讀取寫入時間比較慢，而且還會導致硬碟出現壞道

【Python爬蟲筆記】一、驗證碼識別

技術標籤：【Python】一、OCR技術 OCR（Optical Character Recognition，光學字元識別）是指電子裝置（例如掃描器或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀

【Python爬蟲】採集一個優秀藝術家相互交流的網站——P站（一個正經的網站）

前言

環境介紹

開始程式碼

首先需要匯入模組

傳送請求

獲取資料

提取資料

詳情頁連結

每一個詳情頁的網頁原始碼

提取詳情頁中的圖片連結

圖片連結

替換特殊字元

儲存資料

相關推薦