Python爬蟲爬取一篇韓寒新浪部落格

阿新 • • 發佈：2019-02-09

網上看到大神對Python爬蟲爬到很多有用的資訊，覺得很厲害，突然對想學Python爬蟲，雖然自己沒學過Python，但在網上找了一些資料看了一下，看到爬取韓寒新浪部落格的視訊，共三集，第一節講爬取一篇部落格，第二節講爬取一頁部落格，第三集講爬取全部部落格。

看了視訊，也留下了程式碼。

爬蟲第一步：檢視網頁原始碼：

第一篇部落格的程式碼為藍底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>

對比其他部落格的程式碼，找出公共部分“< title=‘’ ‘href=’,'.html'

程式碼為：

# -*- coding : -utf-8 -*-
import urllib
str0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>'
title = str0.find(r'<a title')
#print title
href = str0.find(r'href=')
#print href
html = str0.find(r'.html')
#print html

url = str0[href + 6:html + 5]
print url

content = urllib.urlopen(url).read()
#print content

filename = url[-26:]
print filename
open(filename+'.html','w').write(content)
print '下載成功！'

執行結果：

儲存的檔案：

Python爬蟲爬取一篇韓寒新浪部落格

Python爬蟲爬取一篇韓寒新浪部落格

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

python爬蟲爬取鬥圖網最新表情包（第二篇）

Python爬蟲爬取動態頁面思路+例項（一）

python 爬蟲爬取所有上市公司公告資訊（一）

Python爬蟲爬取網頁資料並存儲（一）

python用爬蟲爬取一張圖片

Python爬蟲-爬取糗事百科段子

python爬蟲爬取頁面源碼在本頁面展示

python 爬蟲爬取證券之星網站

python爬蟲爬取海量病毒文件

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

python爬蟲——爬取古詩詞

Python爬蟲 - 爬取百度html代碼前200行

簡易python爬蟲爬取boss直聘職位，並寫入excel

Python 爬蟲爬取微信文章

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

Python爬蟲爬取OA幸運飛艇平臺獲取數據

利用python爬蟲爬取圖片並且制作馬賽克拼圖

【python】python每天抓取一篇英語美文，發送到郵箱

Python爬蟲爬取一篇韓寒新浪部落格

相關推薦