1. 程式人生 > >抓取簡書個人主頁目錄制作

抓取簡書個人主頁目錄制作

pac bsp auto apt www main chrome 主程序 content

寫作不易,轉載請註明出處!!!

直接上幹貨!!!

本文代碼運行環境pyhton2,代碼註釋的很詳細,直接看代碼即可。

#-*- coding:utf-8 -*-

import urllib2
from lxml import etree

class CrawlJs():
    #定義函數,爬取對應的數據
    def getArticle(self,url):
        print █████████████◣開始爬取數據
        my_headers = {
            User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36
, } request = urllib2.Request(url,headers=my_headers) content = urllib2.urlopen(request).read() return content #定義函數,篩選和保存爬取到的數據 def save(self,content): xml = etree.HTML(content) title = xml.xpath(//div[@class="content"]/a[@class="title"]/text()
) link = xml.xpath(//div[@class="content"]/a[@class="title"]/@href) print link i=-1 for data in title: print data i+=1 with open(JsIndex.txt,a+) as f: f.write([+data.encode(utf-8)+]+(+http://www.jianshu.com
+link[i]+)+ \n) print █████████████◣爬取完成! #定義主程序接口 if __name__ == __main__: page = int(raw_input(請輸入你要抓取的頁碼總數:)) for num in range(page): #這裏輸入個人主頁,如:u/c475403112ce url = http://www.jianshu.com/u/c475403112ce?order_by=shared_at&page=%s%num #調用上邊的函數 js = CrawlJs() #獲取頁面內容 content = js.getArticle(url) #保存內容到文本中 js.save(content)

運行結果

技術分享圖片
運行結果

抓取簡書個人主頁目錄制作