抓取csdn部落格的所有文章url

阿新 • • 發佈：2019-02-08

輸入部落格的主域名，就可以抓取這個部落格所有的文章編號。

# -*- coding:utf8 -*-  
import string
import urllib2
import re
import time
import random

class CSDN_Spider:

    def __init__(self,url):
        self.myUrl = url
        self.datas = []
        print u"csdn爬蟲已啟動...."

    def csdn(self):
        url = self.myUrl + "?viewmode=list"

        user_agents = [ 
        'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
        'Opera/9.25 (Windows NT 5.1; U; en)',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
        'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
        'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
        'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
        "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
        "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",
        ]
        agent = random.choice(user_agents) 
        req = urllib2.Request(url) 
        req.add_header('User-Agent', agent)
        req.add_header('Host', 'blog.csdn.net')
        req.add_header('Accept', '*/*')
        req.add_header('Referer', 'http://blog.csdn.net/djd1234567?viewmode=contents')
        req.add_header('GET', url)

        mypage = urllib2.urlopen(req).read().decode("utf8")
        #print mypage
        Pagenum = self.page_counter(mypage)
        #print Pagenum
        self.find_data(self.myUrl,Pagenum)

    def page_counter(self,mypage):#<a href="/djd1234567/article/list/11">尾頁</a> 
        myMatch = re.search(u'/article/list/(\d+?)">尾頁</a>',mypage,re.S) 
         
        if myMatch: 
            Pagenum = int(myMatch.group(1)) 
            print u"爬蟲報告:發現目錄一共%d頁" %Pagenum 
        else: 
            Pagenum = 0 
            print u"爬蟲報告:沒找到頁面的數量" 
             
        return Pagenum 
    def find_data(self,myurl,Pagenum):
       
        name = myurl.split("/")
        f = open(name[-1] + '.txt','w+')  
        
        for i in range(1,Pagenum+1):

            print i
            print u"爬蟲報告:第%d頁正在載入中......" % i
            
            url = myurl + "/article/list/" + str(i)

            user_agents = [ 
            'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
            'Opera/9.25 (Windows NT 5.1; U; en)',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
            'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
            'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
            'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
            "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
            "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",
            ]
            agent = random.choice(user_agents)

            req = urllib2.Request(url) 

            req.add_header('User-Agent', agent)
            req.add_header('Host', 'blog.csdn.net')
            req.add_header('Accept', '*/*')
            req.add_header('Referer', url)
            req.add_header('GET', url)

            mypage = urllib2.urlopen(req).read() 

            myItems = re.findall(u'"><a href="/' + myurl.split("/")[-1] + '/article/details/(\d+?)" title="',mypage,re.S) 
            #print myItems

            for item in myItems:
                self.datas.append(item+"\n")
            
            #time.sleep(1)



        f.writelines(self.datas)  
        f.close() 

        print self.datas

        print u"爬蟲報告:檔案已下載到本地並打包成txt格式檔案"


url = "http://blog.csdn.net/djd1234567"
  
mySpider = CSDN_Spider(url)  
mySpider.csdn()

抓取csdn部落格的所有文章url

輸入部落格的主域名，就可以抓取這個部落格所有的文章編號。 # -*- coding:utf8 -*- import string import urllib2 import re import time import random class CSDN_Spider:

webMagic爬蟲抓取某個部落格全部文章名稱

demo下載地址:點選開啟連結主要類: package testMagic; import java.util.List; import javax.management.JMException; import us.codecraft.webmagic.Pag

JAVA爬蟲挖取CSDN部落格文章(續)

前言之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章，當時博主還在上一家公司實習，由於公司辦公網路需要代理才能訪問外網，那一篇的程式碼邏輯與代理密切相關，可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗，且當時以為爬取所有文章需要用到分

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

部落格搬家系列（二）-爬取CSDN部落格

部落格搬家系列（二）-爬取CSDN部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（三）-爬取部落格園部落格：https://bl

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Jsoup爬取CSDN部落格

個人Jsoup練習之作，只做參考： <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi

使用python爬取csdn部落格訪問量

最近學習了python和爬蟲，想寫一個程式練練手，所以我就想到了大家都比較關心的自己的部落格訪問量，使用python來獲取自己部落格的訪問量，這也是後邊我將要進行的專案的一部分，後邊我會對部落格的訪問量進行分析，以折線圖和餅圖等視覺化的方式展示自己部落格被訪問的

如何用Google Chrome瀏覽器轉載CSDN部落格文章

參考部落格原址：http://blog.csdn.net/bolu1234/article/details/51867099 轉載CSDN部落格步驟： 1.CSDN部落格頁面右鍵，點選【檢查】點選檢查後，頁面右側出現html程式碼，如下圖 2.如果需要轉載全文，則在ht

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，寫篇隨筆簡單share一下。這個小工具主要用到的由nl

CSDN部落格如何轉載別人的文章（最新最詳細教程）

前言：我在學習和工作中遇到什麼問題，喜歡到CSDN來尋找答案，那麼問題來了，當我看到自己喜歡的文章後想轉載到自己的部落格裡，卻不知道怎麼操作，我百度了很多方法，有些方法已經是很久以前的了，現在瀏覽器更新了他們的操作步驟都不一樣了，今天我根據

使用Tornado和協程爬取部落格園文章

Python3.5後 Tornado官方建議使用async和await的方式實現非同步程式，嘗試了下使用Tornado和協程爬取部落格園的文章並使用peewee_async非同步寫入MySQL資料庫。一. 部落格園文章抓取測試：這裡我以我自己的一篇文章詳情作為測試url，https://www.cnb

CSDN部落格文章必須要登入才能檢視解決辦法

1 將此文章存到書籤欄。 2 右鍵點選儲存到書籤欄的這個書籤，然後點選修改。 3 名稱改為：CSDN檢視全文，網址改為： javascript:$("#article_content").css({"height":"auto","overflow":"auto"});$(".hide-artic

CSDN部落格文章必須要關閉廣告外掛才能檢視的解決辦法

首先需要chrome瀏覽器，以及能去chrome商店下載應用（需fanqiang)。整個教程約花費時間2-3分鐘。 1.先關閉廣告外掛比如ABPblock,然後開啟某個需要關閉廣告外掛才能檢視的csdn部落格。 2.點選csdn網址左邊的小圖示，然後點選網站設定。 3.把下面的四個選項都禁止掉

CSDN部落格文章Markdown快捷鍵樣式標籤格式

用處讓快捷鍵有個浮現的外邊框格式, 閱讀體驗更佳格式 <kbd>按鍵名字</kbd> 效果 Ctrl+Shift+A 編寫的時候填寫 <kbd>Ctrl</kbd>+<kbd>Shift</k

雜談：csdn 部落格有沒有隨意將文章加入自定義分類的功能？

csdn 部落格有沒有隨意將文章加入自定義分類的功能？今晚應某一個網友，把之前的那些文章都進行一次分類，但是發現分類的時候，每次都要進行編輯釋出再勾選，時間和效率都不行了。不知道有無這個可以隨意將文章加入自定義分類的功能呢？可能我還沒找到吧哈哈，愚鈍了。要是有

爬取多頁資訊——爬取自己CSDN部落格

在學完莫煩B站的爬蟲視訊的3.3節之後，我完成了這個專案，感覺收穫還是不小的。體會是自己練手感覺進步挺快，能做出一個小專案給了我一些自信心，中間幾個棘手的問題： 1如何獲取下一頁：分析我的主頁的HTML，發現有一個總的文章數、有pagesize（每頁最多顯示幾篇文章），有此兩值就可以得到總

【爬蟲入門】【正則表示式】【Json】抓取CSDN最新文章

爬取csdn文章的JSON資料資料庫分為關係型資料庫和關係型資料庫，關係型資料庫需要通過建立表與表之間的關係來進行資料的儲存和查詢，比如一對一、一對多、多對多關係，表與表之間的關係比較緊密。而非關係型資料庫中，表與表之間是不存在關聯的，每一個表都是獨立儲存資料的。 mongodb屬於非

抓取指定路徑下所有文檔名

mds 所有 -- 2.6 div ast txt rom char --方法1： EXEC xp_dirtree ‘\\172.6.6.6\D$\TEXT\‘,1,1 --方法2： CREATE TABLE #TXT_Name (NAME VARCHAR( 2000)

webmagic爬取博客園所有文章

get() cat 彈出 println for core gic cif tac 最近學習了下webmagic，學webmagic是因為想折騰下爬蟲，但是自己學java的，又不想太費功夫，所以webmagic是比較好的選擇了。寫了幾個demo，源碼流程大致看了一遍。想著

抓取csdn部落格的所有文章url

相關推薦