python學習第一彈：爬蟲（抓取博客園新聞）

阿新 • • 發佈：2017-06-07

結果 csv hid window 相關數解析html 可能一個 _id

前言

　　說到python，對它有點耳聞的人，第一反應可能都是爬蟲~

　　這兩天看了點python的皮毛知識，忍不住想寫一個簡單的爬蟲練練手，JUST DO IT

準備工作

　　要制作數據抓取的爬蟲，對請求的源頁面結構需要有特定分析，只有分析正確了，才能更好更快的爬到我們想要的內容。

　　打開博客園任何一個新聞頁面，比如https://news.cnblogs.com/n/570973/，思路是通過這個源頁面，並且根據頁面中的“上一篇”、“下一篇”等鏈接，源源不斷的爬取其它新聞內容。

　　瀏覽器訪問https://news.cnblogs.com/n/570973

/，右鍵“查看源代碼”，初步只想取一些簡單的數據（文章標題、作者、發布時間等），在HTML源碼中找到相關數據的部分：

　　1）標題（url）：<div id="news_title"><a href="//news.cnblogs.com/n/570973/">SpaceX重復使用的“龍”飛船成功與國際空間站對接</a></div>

　　2）作者：<span class="news_poster">投遞人 <a href="//home.cnblogs.com/u/34358/">itwriter</a></span>

　　3）發布時間：<span class="time">發布於 2017-06-06 14:53</span>

　　4）當前新聞ID : <input type="hidden" value="570981" id="lbContentID">

　　當然了，要想“順藤摸瓜”，“上一篇”和“下一篇”鏈接的結構非常重要；但發現一個問題，頁面中的這兩個<a>標簽，它的鏈接和文本內容，是通過js渲染的，這可如何是好？嘗試尋找資料（python執行js之類的），可對於python菜鳥來說，可能有點超前了，打算另找方案。

　　雖然這兩個鏈接是通過js渲染的，但是理論上來說，js之所以能渲染該內容，應該也是通過發起請求，得到響應後執行的渲染吧；那麽是否可以通過監視網頁加載過程看看有什麽有用信息呢？在此要為chrome/firefox這些瀏覽器點個贊了，開發者工具/網絡，可以清清楚楚的看到所有資源的請求和響應情況。

　　技術分享

　　它們的請求地址分別為：

　　1）上一篇新聞ID：https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=570992

　　2）下一篇新聞ID：https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=570992

　　響應的內容為JSON

　　技術分享

　　此處ContentID就是我們需要的，可以根據這個值，知道當前新聞的上一篇或下一篇新聞URL，因為新聞發布的頁面地址是有固定格式的：https://news.cnblogs.com/n/{{ContentID}}/ （紅色內容就是可替換的ID）

工具

　　1）python 3.6（安裝的時候同時安裝pip，並且加入環境變量）

　　2）PyCharm 2017.1.3

　　3）第三方python庫（安裝：cmd -> pip install name）

　　　　a）pyperclip : 用於讀寫剪貼板

　　　　b）requests : 基於 urllib，采用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便，可以節約我們大量的工作

　　　　c）beautifulsoup4 : Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據

源碼

代碼個人覺得都是很基礎易懂的（畢竟菜鳥也寫不出高深的代碼），有疑問或是建議的，請不吝賜教

#! python3
# coding = utf-8
# get_cnblogs_news.py
# 根據博客園內的任意一篇新聞，獲取所有新聞（標題、發布時間、發布人）
# https://news.cnblogs.com/n/123456/

# 這是標題格式 ：<div id="news_title"><a href="//news.cnblogs.com/n/570973/">SpaceX重復使用的“龍”飛船成功與國際空間站對接</a></div>
# 這是發布人格式 ：<span class="news_poster">投遞人 <a href="//home.cnblogs.com/u/34358/">itwriter</a></span>
# 這是發布時間格式 ：<span class="time">發布於 2017-06-06 14:53</span>

# 當前新聞ID ：<input type="hidden" value="570981" id="lbContentID">

# html中獲取不到上一篇和下一篇的直接鏈接，因為它是使用ajax請求後期渲染的
# 需要另外請求地址，獲取結果，JSON
# 上一篇 https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=570971
# 下一篇 https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=570971

# 響應內容
# ContentID : 570971
# Title : "Mac支持外部GPU VR開發套件售599美元"
# Submitdate : "/Date(1425445514)"
# SubmitdateFormat : "2017-06-06 14:47"

import sys, pyperclip
import requests, bs4
import json

# 解析並打印（標題、作者、發布時間、當前ID）
# soup : 響應的HTML內容經過bs4轉化的對象
def get_info(soup):
    dict_info = {‘curr_id‘: ‘‘, ‘author‘: ‘‘, ‘time‘: ‘‘, ‘title‘: ‘‘, ‘url‘: ‘‘}

    titles = soup.select(‘div#news_title > a‘)
    if len(titles) > 0:
        dict_info[‘title‘] = titles[0].getText()
        dict_info[‘url‘] = titles[0].get(‘href‘)

    authors = soup.select(‘span.news_poster > a‘)
    if len(authors) > 0:
        dict_info[‘author‘] = authors[0].getText()

    times = soup.select(‘span.time‘)
    if len(times) > 0:
        dict_info[‘time‘] = times[0].getText()

    content_ids = soup.select(‘input#lbContentID‘)
    if len(content_ids) > 0:
        dict_info[‘curr_id‘] = content_ids[0].get(‘value‘)

    # 寫文件
    with open(‘D:/cnblognews.csv‘, ‘a‘) as f:
        text = ‘%s,%s,%s,%s\n‘ % (dict_info[‘curr_id‘], (dict_info[‘author‘] + dict_info[‘time‘]), dict_info[‘url‘], dict_info[‘title‘])
        print(text)
        f.write(text)
    return dict_info[‘curr_id‘]

# 獲取前一篇文章信息
# curr_id : 新聞ID
# loop_count : 向上多少條，如果為0，則無限向上，直至結束
def get_prev_info(curr_id, loop_count = 0):
    private_loop_count = 0
    try:
        while loop_count == 0 or private_loop_count < loop_count:
            res_prev = requests.get(‘https://news.cnblogs.com/NewsAjax/GetPreNewsById?contentId=‘ + curr_id)
            res_prev.raise_for_status()
            res_prev_dict = json.loads(res_prev.text)
            prev_id = res_prev_dict[‘ContentID‘]

            res_prev = requests.get(‘https://news.cnblogs.com/n/%s/‘ % prev_id)
            res_prev.raise_for_status()
            soup_prev = bs4.BeautifulSoup(res_prev.text, ‘html.parser‘)
            curr_id = get_info(soup_prev)

            private_loop_count += 1
    except:
        pass

# 獲取下一篇文章信息
# curr_id : 新聞ID
# loop_count : 向下多少條，如果為0，則無限向下，直至結束
def get_next_info(curr_id, loop_count = 0):
    private_loop_count = 0
    try:
        while loop_count == 0 or private_loop_count < loop_count:
            res_next = requests.get(‘https://news.cnblogs.com/NewsAjax/GetNextNewsById?contentId=‘ + curr_id)
            res_next.raise_for_status()
            res_next_dict = json.loads(res_next.text)
            next_id = res_next_dict[‘ContentID‘]

            res_next = requests.get(‘https://news.cnblogs.com/n/%s/‘ % next_id)
            res_next.raise_for_status()
            soup_next = bs4.BeautifulSoup(res_next.text, ‘html.parser‘)
            curr_id = get_info(soup_next)

            private_loop_count += 1
    except:
        pass


# 參數從優先從命令行獲取，如果無，則從剪切板獲取
# url是博客園新聞版塊下，任何一篇新聞
if len(sys.argv) > 1:
    url = sys.argv[1]
else:
    url = pyperclip.paste()

# 沒有獲取到有地址，則拋出異常
if not url:
    raise ValueError

# 開始從源地址中獲取新聞內容
res = requests.get(url)
res.raise_for_status()
if not res.text:
    raise ValueError

#解析Html
soup = bs4.BeautifulSoup(res.text, ‘html.parser‘)
curr_id = get_info(soup)
print(‘backward...‘)
get_prev_info(curr_id)
print(‘forward...‘)
get_next_info(curr_id)
print(‘done‘)

運行

　　將以上源代碼保存至D:/get_cnblogs_news.py ，windows平臺下打開命令行工具cmd:

　　輸入命令：py.exe D:/get_cnblogs_news.py https://news.cnblogs.com/n/570992/ 回車

　　解析：py.exe就不用解釋了，第二個參數為python腳本文件，第三個參數為需要爬的源頁面（代碼裏有另一種考慮，如果你將https://news.cnblogs.com/n/570992/這個url拷貝在系統剪貼板的時候，可以直接運行：py.exe D:/get_cnblogs_news.py

　　命令行輸出界面（print）

　　技術分享

　　保存到csv文件的內容

　　技術分享

推薦菜鳥python學習書箱或資料：

　　1）廖雪峰的Python教程，很基礎易懂：http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

　　2）Python編程快速上手讓繁瑣工作自動化.pdf

文章僅是給自己學習python的日記，如有誤導請批評指正（不喜勿噴），如對您有幫助，榮幸之至。

python學習第一彈：爬蟲（抓取博客園新聞）

結果 csv hid window 相關數解析html 可能一個 _id 前言　　說到python，對它有點耳聞的人，第一反應可能都是爬蟲~ 　　這兩天看了點python的皮毛知識，忍不住想寫一個簡單的爬蟲練練手，JUST DO IT 準備工作　　要制作數據

python學習第一彈：爬蟲（抓取博客園新聞）

python學習第一彈：爬蟲（抓取博客園新聞）

【Python3 爬蟲】爬取博客園首頁所有文章

博客園個人界面美化（初入博客園）

Python學習第一章：第一次的親密接觸之初識程序（二）

python學習第一天：計算機基礎

python學習第一天：操作系統介紹、python基礎

python學習之網站的編寫（HTML，CSS，JS）（十五）----------示例，彈出一個背景為半黑色，前面是白框的彈窗功能（已經編好的框架）

python 學習彙總30：lambda（全 tcy）

python 學習彙總37：functools（ tcy）

python 學習彙總41：unicode（ tcy）

python 自學第二課：使用BeautifulSoup抓取鏈接正則表達式

python學習第二十七天（HTML之表單標籤）

python學習之網站的編寫（HTML，CSS，JS）（十七）----------示例，構造一個網頁的框架，上部標題，登入，logo，左側選單，右側內容，原始碼

python學習之網站的編寫（HTML，CSS，JS）（十六）----------示例，構造一個左側管理選單的功能，點選主選單才顯示下面的內容

python學習之網站的編寫（HTML，CSS，JS）（十四）----------CSS的display行內標籤和塊級標籤的轉換，控制標籤是否顯示

python學習之網站的編寫（HTML，CSS，JS）（十三）----------CSS字型和對齊方式的設定

python學習之網站的編寫（HTML，CSS，JS）（十二）----------CSS邊框的編寫

python學習之網站的編寫（HTML，CSS，JS）（十一）----------如何利用其它html檔案中的CSS（也就是可以將共同的地方提取出來，放大一個檔案中，利於使用）

python學習之網站的編寫（HTML，CSS，JS）（十）----------CSS中用的最多的class選擇器，批量的為一些標籤設定相同的版式

python學習之網站的編寫（HTML，CSS，JS）（九）----------table標籤，表格的實現

python學習第一彈：爬蟲（抓取博客園新聞）

相關推薦