爬取所有部落格

阿新 • • 發佈：2018-11-09

爬取所有部落格的內容並轉換成為pdf格式

from bs4 import BeautifulSoup
import pdfkit
import re


# <a href="https://blog.csdn.net/qq_41911569/article/details/83034422" target="_blank"><span class="">檢視</span></a>
from gevent import os


def getPagehtml(url):  #獲取網頁的內容
    response = requests.get(url)
    return response.text


def createurl(text):  #從網頁原始碼中匹配到每一片部落格網址
    '''
    <a href="https://blog.csdn.net/qq_41911569/article/details/83034422" target="_blank"><span class="article-type type-1">原</span>爬取貓眼電影</a>
    :param text:
    :return:
    '''
    pattern = r'<a href="(https://blog.csdn.net/qq_41911569/article/.*?)" target="_blank">'
    return re.findall(pattern,text)

url = 'https://blog.csdn.net/qq_41911569'
text = getPagehtml(url)
createurl(text)


def get_blog_content(i,url):  #根據獲取到的每一片的部落格網址，獲得部落格的內容，並寫入檔案中
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html5lib')
    # 獲取head標籤的內容
    head = soup.head
    # 獲取部落格標題
    title = soup.find_all(class_="title-article")[0].get_text()
    # 獲取部落格內容
    content = soup.find_all(class_="article_content")[0]
    # 寫入本地檔案
    other = 'http://passport.csdn.net/account/login?from='
    with open('/home/kiosk/Desktop/python筆記/python_stack/day26/bs/westos%d.html' %i, 'w') as f:
        f.write(str(head))
        f.write('<h1>%s</h1>\n\n' %(title))
        f.write(str(content))

def main():
    # https://blog.csdn.net/qq_41911569/article/list/3
    article_url = []
    for i in range(3):
        url = 'https://blog.csdn.net/qq_41911569/article/list/%d' %(i+1)
        text = getPagehtml(url)
        article_url.append(createurl(text))
    article_url = [j for i in article_url for j in i]

    # print(article_url)
    for i,v in enumerate(set(article_url)):
        get_blog_content(i,v)


main()

結果：
在這裡插入圖片描述

爬取所有部落格

爬取所有部落格的內容並轉換成為pdf格式 from bs4 import BeautifulSoup import pdfkit import re # <a href="https://blog.csdn.net/qq_41911569/article/details/830

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

部落格搬家系列（二）-爬取CSDN部落格

部落格搬家系列（二）-爬取CSDN部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（三）-爬取部落格園部落格：https://bl

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Jsoup爬取CSDN部落格

個人Jsoup練習之作，只做參考： <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi

使用python爬取csdn部落格訪問量

最近學習了python和爬蟲，想寫一個程式練練手，所以我就想到了大家都比較關心的自己的部落格訪問量，使用python來獲取自己部落格的訪問量，這也是後邊我將要進行的專案的一部分，後邊我會對部落格的訪問量進行分析，以折線圖和餅圖等視覺化的方式展示自己部落格被訪問的

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁學習本文需要先準備的知識點：python基本語法 1.前期準備（知識點講解） (1)、urllib.request庫——開啟url的可擴充套件庫 urll

抓取csdn部落格的所有文章url

輸入部落格的主域名，就可以抓取這個部落格所有的文章編號。 # -*- coding:utf8 -*- import string import urllib2 import re import time import random class CSDN_Spider:

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

爬取所有校園新聞

tle lec itl 網址 def 新聞 amp getc 內容 1.獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。 import requests from bs4 import BeautifulSoup from datetime i

爬取所有新聞列表

點擊 amp rst label for beautiful enc 次數 bsp 1、獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。 import requests from bs4 import BeautifulSoup import

爬取伯樂線上文章（三）爬取所有頁面的文章

之前只是爬取某一篇文章的內容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新啟動scrapy的shell parse函式需要做兩件事 1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解

用selenium爬新浪部落格demo

經過一週的爬蟲學習，對python的爬蟲有了一些瞭解。寫一個小demo記錄一下學習成果。匯入selenium包 from selenium import webdriver # 捕獲異常，用於當部落格取完之後不報錯 from selenium.common.exceptions i

JAVA爬蟲挖取CSDN部落格文章(續)

前言之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章，當時博主還在上一家公司實習，由於公司辦公網路需要代理才能訪問外網，那一篇的程式碼邏輯與代理密切相關，可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗，且當時以為爬取所有文章需要用到分

python 爬蟲爬去自己部落格的訪問量

廢話不多說，我也是剛剛學習小白一個，但是經過我的測試確實是可以用的，只不過大家要把時間設定的要長一點先上程式碼，使用py3 程式碼的相關解析可以看我的其他部落格，裡面有詳細的介紹 __author__ = 'MrChen' &

python 爬蟲爬取所有上市公司公告資訊（一）

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的

用pyhton爬蟲技術爬取所有股票的每週價格

前言目前有越來越多的基金,無論是公募或私募,都在使用量化交易。未來10年,人工智慧將出現在越來越多的投資交易中,不以人工智慧為核心的投資平臺將很難生存。量化交易的核心在於資料。今天我們就利用python爬蟲技術爬取上交所所有股票的歷史每週價格，以備分析。找到資料來

python 爬蟲爬取所有上市公司公告資訊（五）

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。公告最終在對應的json檔案裡是以鍵值對

Nutch教程——匯入Nutch工程，執行完整爬取 by 逼格DATA

在使用本教程之前，需要滿足條件： 1）有一臺Linux或Linux虛擬機器 2）安裝JDK（推薦1.7） 3）安裝Apache Ant 下載Nutch原始碼：安裝IDE：推薦使用Intellij或者Netbeans，如果用eclipse也可以，不推薦。轉換：

python 爬蟲爬取所有上市公司公告資訊（二）

。，。設計公告資訊爬蟲面臨的主要問題在上一篇文章已經敘述過了，這篇文章我們選擇合適的資料來源和爬取的方式首先選擇爬取的資料來源，這裡筆者經過多方比較，最終選擇了東方財富網作為公告爬蟲的資料來源。下面以飛馬國際為例（002210）我們可以看到，東方財富網專門設有網頁儲

爬取所有部落格

相關推薦