Python爬蟲爬取一篇韓寒新浪部落格
阿新 • • 發佈:2019-02-09
網上看到大神對Python爬蟲爬到很多有用的資訊,覺得很厲害,突然對想學Python爬蟲,雖然自己沒學過Python,但在網上找了一些資料看了一下,看到爬取韓寒新浪部落格的視訊,共三集,第一節講爬取一篇部落格,第二節講爬取一頁部落格,第三集講爬取全部部落格。
看了視訊,也留下了程式碼。
爬蟲第一步:檢視網頁原始碼:
第一篇部落格的程式碼為藍底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>
對比其他部落格的程式碼,找出公共部分“< title=‘’ ‘href=’,'.html'
程式碼為:
# -*- coding : -utf-8 -*- import urllib str0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>' title = str0.find(r'<a title') #print title href = str0.find(r'href=') #print href html = str0.find(r'.html') #print html url = str0[href + 6:html + 5] print url content = urllib.urlopen(url).read() #print content filename = url[-26:] print filename open(filename+'.html','w').write(content) print '下載成功!'
執行結果:
儲存的檔案: