python爬蟲（爬遊民星空桌布）_圖片損壞問題

阿新 • • 發佈：2019-01-26

__author__ = 'AllenMinD'
import requests,urllib
from bs4 import BeautifulSoup

ans = 1

for page in range(1,12):
    if page==1:
        url = 'http://www.gamersky.com/ent/201603/730123.shtml'
    else:
        url = 'http://www.gamersky.com/ent/201603/730123_'+str(page)+'.shtml'
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36'
              ,'Cookie':'BIDUPSID=5B700B9ED7BFDE99E48407F4C10FABAA; BAIDUID=05F28292EA8DA5A589737ACF26DD1B31:FG=1; PSTM=1456985091; BDUSS=1hczlEYmxKckJPbU9CRDE0R1hQcWtOOWJIQ2JQY1BRckQ2OW9kdWNnfmhTUjVYQVFBQUFBJCQAAAAAAAAAAAEAAABHG40~AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOG89lbhvPZWaU'}
    source_code = requests.get(url,headers = header)
    plain_text = source_code.text

    soup = BeautifulSoup(plain_text,'lxml')

#    print soup.select('p > a')

    download_link = []
    for pic_tag in soup.select('p > a'):
        #print pic_tag.get('href')[52:]
        download_link.append(pic_tag.get('href')[52:])#*********重點*********

    folder_path = "D:/spider_things/2016.4.4/bizhi/"

    for item in download_link:
        urllib.urlretrieve(item , folder_path + str(ans) + '.jpg')
        print 'You have downloaded',ans,'picture(s)!~'
        ans = ans+1

前些天想做下游民星空桌布的爬去，但是一開始想平常那樣爬取時，最終下載下來的圖片會損壞：

於是，上網查詢問題所在，在一個網站中得到一點啟發（點選開啟連結）：初步猜測出錯的原因是圖片的連結不對

然後我在了看原來爬取下載圖片的連結是：

http://www.gamersky.com/showimage/id_gamersky.shtml?http://img1.gamersky.com/image2016/03/20160319_hc_44_10/gamersky_005origin_009_201631919596C4.jp

但實際上，下載的原圖的連結是：

http://img1.gamersky.com/image2016/03/20160319_hc_44_10/gamersky_005origin_009_201631919596C4.jpg

終於！發現問題了，原來的連結中多了：“http://www.gamersky.com/showimage/id_gamersky.shtml?”

於是利用一個簡單的切片便獲取了正確的連結：

pic_tag.get('href')[52:]

問題終於解決了！~o(∩_∩)o 哈

python爬蟲（爬遊民星空桌布）_圖片損壞問題

__author__ = 'AllenMinD' import requests,urllib from bs4 import BeautifulSoup ans = 1 for page in range(1,12): if page==1:

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

python爬蟲（爬取彈幕）

一、首先匯入需要的模組 import re import requests 首先匯入這兩個模組，一個是正則需要的模組，因為之後需要用正則來匹配，之後匯入 request 模組，爬取資料需要的模組。二、頁面請求，提取資料 url='https:/

python爬蟲（爬取羊車門作業的作業）

程式碼如下 import requests import json import time import os from threading import Timer def getHTML(url): try: r=requests.get(url,t

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

Python爬蟲（urllib.request和BeautifulSoup）

學習urllib.request和beautifulsoup，並從dribbble和behance上爬取了一些圖片，記錄一下。一、urllib.request 1. url的構造構造請求的url遇到的主要問題是如何翻頁的問題，dribbble網站是下拉到底自動載入下

python爬蟲——對爬到的數據進行清洗的一些姿勢（5）

weibo 英雄 mina ret term creators 刪除動畫任務　　做爬蟲，當然就要用數據。想拿數據進行分析，首先清洗數據。這個清洗數據包括清除無用數據列和維度，刪除相同數據，對數據進行勘誤之類的。　　從各大不同新聞網站可以爬到重復新聞。。。這個可以有。

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

目標：爬取創科實驗室網站中講座的資訊，輸出表：講座標題、報告人、單位、報告時間、講座內容、報告人簡介技術：requests + bs4 檢視爬蟲協議： http://127.0.0.1/lab/robots.txt （創科實驗室是我自己寫的網址，不反爬蟲）

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

使用正則定位價格，更簡單 import requests import re url = 'https://www.amazon.cn/s/field-keywords=spark' # 隱藏爬蟲 head = {'user-agent':'Mozilla/5.0 (Window

python爬蟲（五）：實戰【4. 爬亞馬遜】

目標：在亞馬遜網站搜尋商品，爬取前10頁的商品（名字和價格）第一步：訪問網站，隱藏爬蟲亞馬遜對爬蟲限制比較嚴格，修改headers、cookies、代理ip 獲取cookie：f12在console輸入document.cookie() 注意：cookies格式為字典，{'a':

python爬蟲（五）：實戰【3. 使用正則來爬創客實驗室】

依然爬取創科實驗室網站中講座的資訊（只爬標題，其它同）但技術上採用requests+正則表示式思想： #通過正則表示式，獲取講座標題規則：<h3>中文字元出現4次任意字元</h3> m = str(re.findall('<h3

python爬蟲（1.爬盜版小說網站）

這是可能是我寫的第一個python爬蟲之前想了好久以一個爬蟲該爬些什麼，後來覺得既簡單又實用的只有爬爬小說了那就拿一個盜版小說網站開刀，當然我是用起點的……畢竟小說作家也不容易所以也請您支援正版何況盜版小說網站是支援下載的，而且在chrome上下載個外掛幾乎所有廣告都可以遮蔽其實

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

python爬蟲（爬遊民星空桌布）_圖片損壞問題

相關推薦