python爬蟲二:網易部落格的圖片
下面講解我的爬蟲程式:
在D:\wa中新建一個記事本檔案1.txt,把所有的網易部落格的連結(注意,是一篇部落格的連結,不是目錄頁面的連結)都放進去,每個佔一行,然後執行程式把每篇部落格的圖片全部下載下來,每篇部落格都在D:\wa目錄下新建一個目錄,目錄名為該篇部落格的網頁title。
程式碼:
#coding=utf-8
import re
importurllib.request
import os
defget(url): #下載一個頁面所有需要的圖片
if(len(url)<9): #忽略txt中的空行
return
all_title=[]
try:
html = urllib.request.urlopen(url).read().decode('gbk')
except:
print('error')
print(url)
return
title = re.search("<title>.*</title>", html).group()
title = title[7:-25] #########根據部落格標題數出來的
while(title inall_title): #處理相同標題的網頁
title = title+'a'
all_title.append(title)
#pic_url = re.findall('http://img[0-9]*.ph.126.net/[0-9a-zA-Z-_=]*==/[0-9]*\.jpg',str(html))
pic_url = re.findall('http://.{1,100}jpg',str(html))
pic_url = list(set(pic_url))#去重
path = thepath + '\\' + title
try:
os.mkdir(path)
except:
return
i = 1
for each inpic_url:
try:
pic= urllib.request.urlopen(each,timeout=10).read()
except:
continue
file = path + '\\' + title + str(i) + '.jpg'
fp = open(file,'w')
fp.write(pic)
fp.close()
i=i+1
if notos.listdir(path):
os.removedirs(path)
print('error')
print(url)
thepath = 'D:\\wa'
fp = open(thepath + '\\' + '1.txt','r').readlines()
for line infp:
if line == '\n':
print('none')
break
get(line.strip('\n'))
get函式就是從1個url中下載所有圖片
呼叫get函式時只需要讀取1.txt即可
相關推薦
python爬蟲二:網易部落格的圖片
下面講解我的爬蟲程式: 在D:\wa中新建一個記事本檔案1.txt,把所有的網易部落格的連結(注意,是一篇部落格的連結,不是目錄頁面的連結)都放進去,每個佔一行,然後執行程式把每篇部落格的圖片全部下載
Python爬蟲,看看我最近部落格都寫了啥,帶你製作高逼格的資料聚合雲圖
今天一時興起,想用python爬爬自己的部落格,通過資料聚合,製作高逼格的雲圖(對詞彙出現頻率視覺上的展示),看看最近我到底寫了啥文章。 1.1 爬取文章的標題的聚合 1.2 爬取文章的摘要的聚合 1.3 爬取文章的標題+摘要的聚合 我
python 爬蟲 爬取網易嚴選全網商品價格評論資料
1.獲取商品目錄 在Chrome瀏覽器開發者工具中,可以找到目錄的JS地址: http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():
Word如何釋出文章到部落格園開源中國網易部落格
準備工作: 1.電腦已經安裝office軟體,樓主是office2016.(office2013,office2010都可以)。 2.下載一個程式碼高亮外掛。地址:連結:https://pan.baidu.com/s/1aSNXGyzyEomu1r5W-1CaIQ 提取碼:pr20 下載之後,解壓出來
Python爬蟲入門教程 17-100 部落格抓取資料
寫在前面 寫了一段時間的部落格了,忽然間忘記了,其實部落格頻道的部落格也是可以抓取的,所以我幹了..... 其實這事情挺簡單的,開啟CSDN部落格首頁,他不是有個最新文章麼,這個裡面都是最新發布的文章。 開啟F12抓取一下資料API,很容易就獲取到了他的介面 提取連結長
部落格轉移到網易部落格,請大家移步--------------------------------->>
我們都知道 windows 有 subst 命令,可以把一個資料夾對映成一個磁碟。如: subst z: c:/afolder 但是很少有人知道 mountvol 命令,他的功能剛好相反,把一個磁碟對映到一個資料夾命令用起來稍微有點複雜 首先 鍵入 mountvol,除了顯示
全棧練習二:簡易個人部落格系統資料庫設計
說明 本節從一個簡易個人部落格系統的框架和設計庫設計開始探索。 功能描述 使用者模組:註冊,登入。 博文模組:釋出,編輯,分類。 評論模組:釋出,回覆,編輯,刪除。 後臺管理:系統設定,使用者管理。 表和欄位設計 user: 欄位 型別 是否主鍵 是否為
利用Python爬蟲批量下載網易雲音樂歌單歌曲
from tkinter import * import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve def download(): url = ent
POST獲取網易部落格資料(網頁抓取,模擬登陸資料學習備份)
下面這個日誌網站(http://www.crifan.com/)的類別“Category Archives: Crawl_emulatelogin”: 裡有很多網頁解析和抓取以及模擬登陸的學習資料,並給出了個部落格搬家的工具:BlogsTo
Python爬蟲(二十三)_selenium案例:動態模擬頁面點擊
zip 函數 span www. 方法 markdown web selenium 使用 本篇主要介紹使用selenium模擬點擊下一頁,更多內容請參考:Python學習指南 #-*- coding:utf-8 -*- import unittest from sel
Python3網絡爬蟲(二):利用urllib.urlopen向有道翻譯發送數據獲得翻譯結果
-c doctype result click 如果 enc tex 自己 數據 一、urlopen的url參數 Agent url不僅可以是一個字符串,例如:http://www.baidu.com。url也可以是一個Request對象,這就需要我們先定義一個
如何用Python網絡爬蟲爬取網易雲音樂歌曲
今天 http 分享圖片 分享 圖片 分分鐘 參考 down 技術 今天小編帶大家一起來利用Python爬取網易雲音樂,分分鐘將網站上的音樂down到本地。 跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了,在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數
如何用Python網絡爬蟲爬取網易雲音樂歌詞
網易雲歌詞 Python網絡爬蟲 網絡爬蟲 前幾天小編給大家分享了數據可視化分析,在文尾提及了網易雲音樂歌詞爬取,今天小編給大家分享網易雲音樂歌詞爬取方法。 本文的總體思路如下: 找到正確的URL,獲取源碼; 利用bs4解析源碼,獲取歌曲名和歌曲ID; 調用網易雲歌曲API,獲取歌詞; 將歌詞寫入
Python爬蟲案例:利用Python爬取笑話網
htm 分享 targe pen 技術分享 搞笑 lan tle import 學校的服務器可以上外網了,所以打算寫一個自動爬取笑話並發到bbs的東西,從網上搜了一個笑話網站,感覺大部分還不太冷,html結構如下: 可以看到,笑話的鏈接列表都在<div cla
阿里雲部署django實現公網訪問 SSH實現遠端控制 linux rhel7下安裝python django初探-建立簡單的部落格系統(一) django初探-建立簡單的部落格系統(二)
本博的主要目的是對阿里雲部署django實現公網訪問進行一次簡單的記錄,方便日後查詢。 內容目錄: (1)申請阿里雲伺服器及安全組配置 (2)實現ssh遠端控制 (3)實現ftp檔案傳輸 (4)安裝python3,在centos下同時使用python2和python3
Python爬蟲例項: 爬取“最好大學網”大學排名
例項2 爬取大學排名 上海交通大學設計了一個“最好大學網”,上面列出了當前的大學排名。我們要設計爬蟲程式,爬取大學排名資訊。 爬蟲功能要求: 輸入:大學排名URL連結輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)工具:python3、requests、beauti
Python爬蟲(二十四)_selenium案例:執行javascript指令碼
本章叫介紹如何使用selenium在瀏覽器中使用js指令碼,更多內容請參考:Python學習指南 隱藏百度圖片 #-*- coding:utf-8 -*- #本篇將模擬執行javascript語句 from selenium import webdriver fro
Python爬蟲(二十二)_selenium案例:模擬登陸豆瓣
本篇部落格主要用於介紹如何使用selenium+phantomJS模擬登陸豆瓣,沒有考慮驗證碼的問題,更多內容,請參考:Python學習指南 #-*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.
Python爬蟲(二十三)_selenium案例:動態模擬頁面點選
本篇主要介紹使用selenium模擬點選下一頁,更多內容請參考:Python學習指南 #-*- coding:utf-8 -*- import unittest from selenium import webdriver from selenium.webdriver.common
利用Python網路爬蟲實現對網易雲音樂歌詞爬取
今天小編給大家分享網易雲音樂歌詞爬取方法。 本文的總體思路如下: 找到正確的URL,獲取原始碼; 利用bs4解析原始碼,獲取歌曲名和歌曲ID; 呼叫網易雲歌曲API,獲取歌詞; 將歌詞寫入檔案,並存入本地。 本文的目的是獲取網易雲音樂的歌詞,並將歌詞存入到本地檔案。整