50行Python程式碼，教你獲取公眾號全部文章

阿新 • • 發佈：2019-07-12

本文首發自公眾號：python3xxx

爬取公眾號的方式常見的有兩種

通過搜狗搜尋去獲取，缺點是隻能獲取最新的十條推送文章
通過微信公眾號的素材管理，獲取公眾號文章。缺點是需要申請自己的公眾號。

圖片描述

今天介紹一種通過抓包PC端微信的方式去獲取公眾號文章的方法。相比其他的方法非常方便。

圖片描述圖片描述

如上圖，通過抓包工具獲取微信的網路資訊請求，我們發現每次下拉重新整理文章的時候都會請求 mp.weixin.qq.com/mp/profile_ext 這個介面。

經過多次測試分析，用到了以下幾個引數

__biz : 使用者和公眾號之間的唯一id，
uin ：使用者的私密id
key ：請求的祕鑰，一段時候只會就會失效。
offset ：偏移量
count ：每次請求的條數

資料如下

{
 "ret": 0,
 "errmsg": "ok", # 請求狀態
 "msg_count": 10,  # 資訊條數
 "can_msg_continue": 1, # 是否還可以繼續獲取，1代表可以。0代表不可以，也就是最後一頁
 "general_msg_list": "{"list":[]}", # 公眾號文字資訊
 "next_offset": 20,  
 "video_count": 1,
 "use_video_tab": 1,
 "real_type": 0,
 "home_page_list": []
}

部分程式碼如下

params = {
        '__biz': biz,
        'uin': uin,
        'key': key,
        'offset': offset,
        'count': count,
        'action': 'getmsg',
        'f': 'json'
    }

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
    }

    response = requests.get(url=url, params=params, headers=headers)
    resp_json = response.json()
    if resp_json.get('errmsg') == 'ok':
        resp_json = response.json()
        # 是否還有分頁資料， 用於判斷return的值
        can_msg_continue = resp_json['can_msg_continue']
        # 當前分頁文章數
        msg_count = resp_json['msg_count']
        general_msg_list = json.loads(resp_json['general_msg_list'])
        list = general_msg_list.get('list')
        print(list, "**************")

最後列印的list就是公眾號的文章資訊詳情。包括標題(titile)、摘要(digest)、文章地址(content_url)、閱讀原文地址(source_url)、封面圖(cover)、作者(author)等等…

輸出結果如下：

[{
    "comm_msg_info": {
        "id": 1000000038,
        "type": 49,
        "datetime": 1560474000,
        "fakeid": "3881067844",
        "status": 2,
        "content": ""
    },
    "app_msg_ext_info": {
        "title": "入門爬蟲，這一篇就夠了！！！",
        "digest": "入門爬蟲，這一篇就夠了！！！",
        "content": "",
        "fileid": 0,
        "content_url": "http:XXXXXX",
        "source_url": "",
        "cover": "I5kME6BVXeLibZDUhsiaEYiaX7zOoibxa9sb4stIwrfuqID5ttmiaoVAFyxKF6IjOCyl22vg8n2NPv98ibow\\/0?wx_fmt=jpeg",
        "subtype": 9,
        "is_multi": 0,
        "multi_app_msg_item_list": [],
        "author": "Python3X",
        "copyright_stat": 11,
        "duration": 0,
        "del_flag": 1,
        "item_show_type": 0,
        "audio_fileid": 0,
        "play_url": "",
        "malicious_title_reason_id": 0,
        "malicious_content_type": 0
    }
},{...},{...},{...},{...},{...},{...},{...},{...},{...}]

獲取資料之後，可以儲存到資料庫中，也可以將文章儲存在PDF中。

1、儲存在Mongo中

# Mongo配置
conn = MongoClient('127.0.0.1', 27017)
db = conn.wx  #連線wx資料庫，沒有則自動建立
mongo_wx = db.article  #使用article集合，沒有則自動建立

for i in list:
    app_msg_ext_info = i['app_msg_ext_info']
    # 標題
    title = app_msg_ext_info['title']
    # 文章地址
    content_url = app_msg_ext_info['content_url']
    # 封面圖
    cover = app_msg_ext_info['cover']

    # 釋出時間
    datetime = i['comm_msg_info']['datetime']
    datetime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(datetime))

    mongo_wx.insert({
        'title': title,
        'content_url': content_url,
        'cover': cover,
        'datetime': datetime
    })

結果如下

圖片描述

2、匯入到PDF檔案中

Python3中常用的操作PDF的庫有python-pdf和pdfkit。我用了pdfkit這個模組匯出pdf檔案。

pdfkit是工具包Wkhtmltopdf的封裝類，因此需要安裝Wkhtmltopdf才能使用。

可以訪問 https://wkhtmltopdf.org/downloads.html 下載和作業系統匹配的工具包。

圖片描述

實現程式碼也比較簡單，只需要傳入匯入檔案的url即可。

安裝pdfkit庫

pip3 install pdfkit -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
import pdfkit
pdfkit.from_url('公眾號文章地址', 'out.pdf')

執行之後成功匯出pdf檔案。

以上就是獲取公眾號文章的方式，如需完整程式碼，可在公眾號[python3xxx]中回覆朋友圈獲取完整程式碼！

50行Python程式碼，教你獲取公眾號全部文章

本文首發自公眾號：python3xxx 爬取公眾號的方式常見的有兩種通過搜狗搜尋去獲取，缺點是隻能獲取最新的十條推送文章通過微信公眾號的素材管理，獲取公眾號文章。缺點是需要申請自己的公眾號。圖片描述今天介紹一種通過抓包PC端微信的方式去獲取公眾號文章的方法。相

50 行 Python 程式碼，帶你追到最心愛的人

程式設計師世紀難題人們一提到程式設計師第一反應就是：我知道！他們工資很高啊！但大部分都是單身狗，不懂得幽默風趣，只是每天穿格子 polo 衫的宅男一個。甚至程式設計師自己也這樣形容自己：錢多話少死的早。程式設計師總是愛這樣黑自己。大部分的程式設計師都是單身這是一個不爭

100行Python程式碼，幫你分析國慶應該去哪裡玩才是最好的選擇

小編有自己的Python學習交流群：865597862 ！進群免費獲取2018最新的Python學習資料！文件、視訊！安排！！！！統計結果此次的統計結果只是從側面反映景點爆滿的問題，未必是完全準確的，僅供參考。此次統計的景點共有 100 個：有需要Python

釋出訂閱模式還不會??戳這裡，50行核心程式碼，手把手教你學會

小插曲如果大家想看events模組所有方法原始碼解析，可以點進我github上參考事件建議大家看下官網中events事件的描述node中events事件釋出訂閱模式定義了一種一對多的依賴關係在Node中EventEmitter開放on(事件名,回撥函

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

500行程式碼，教你用python寫個微信飛機大戰

這幾天在重溫微信小遊戲的飛機大戰，玩著玩著就在思考人生了，這飛機大戰怎麼就可以做的那麼好，操作簡單，簡單上手。幫助蹲廁族、YP族、飯圈女孩在無聊之餘可以有一樣東西讓他們振作起來！讓他們的左手 / 右手有節奏有韻律的朝著同一個方向來回移動起來！這是史詩級的發明，是濃墨重彩的一筆，是…… 在一陣抽搐後，我

人臉檢測真的不難，50行Python程式碼就能實現人臉檢測

現在的人臉識別技術已經得到了非常廣泛的應用，支付領域、身份驗證、美顏相機裡都有它的應用。用iPhone的同學們應該對下面的功能比較熟悉 iPhone的照片中有一個“人物”的功能，能夠將照片裡的人臉識別出來並分類，背後的原理也是人臉識別技術。這篇文章主要介紹怎樣用Python實現

入門十天，我就用50行Python程式碼爬到了整個網站

這篇文章是利用aiohttp這個庫來進行說明的。如果爬蟲需要展現速度，我覺得就是去下載圖片吧，原本是想選擇去煎蛋那裡下載圖片的，那裡的美女圖片都是高質量的，我稿子都是差不多寫好了的，無奈今天重新看下，妹子圖的入口給關了，至於為什麼關呢，大家可以去看看昨天好奇心日報的關停

用50行Python程式碼從零開始實現一個AI平衡小遊戲！

集智導讀：本文會為大家展示機器學習專家 Mike Shi 如何用 50 行 Python 程式碼建立一個 AI，使用增強學習技術，玩耍一個保持杆子平衡的小遊戲。所用環境為標準的 OpenAI Gym，只使用 Numpy 來建立 agent。學習Python中有不明白推薦加入交流群號

6段里程碑式Python程式碼，帶你瞭解深度學習歷史！

【導讀】深度學習為什麼會成為今天的樣子？讓我們用六段程式碼來刻畫深度學習簡史，用Python展現深度學習歷史上關鍵的節點和核心要素，包括最小二乘法、梯度下降、線性迴歸、感知器、神經網路和深度神經網路。最小二乘法深度學習的一切都起源於這個數學片段（我把它用Python 寫了出來）：

50行Python程式碼玩轉微信小遊戲"顏色王者"

50行Python程式碼玩轉微信小遊戲”顏色王者” 遊戲模式在微信小程式裡搜尋“顏色王者”，即可找到該遊戲。遊戲的目標比拼色彩敏感度。點選圖片中不一樣的色塊即可。這遊戲前面20多級還是比較簡單的，到後面色塊實在太小，顏色越來越接近以至於到下圖的程度。工具介

網上看中一篇好文章，無法複製？不要著急，一個程式碼，教你搞定！

不知道大家有沒有和我一樣的苦惱，在網上看到自己很感興趣，很喜歡的文章，卻不能複製！真的很討厭！後來我學會了一個小技巧——一個程式碼，即可複製你看中的任何內容！你想學習嗎？想的話，就接著往下看喲！應用舉例：如圖，這篇文章想要下載，就需要註冊登入才可以。其

入門｜三行Python程式碼，讓資料預處理速度提高2到6倍 python入門

在 Python 中，我們可以找到原生的並行化運算指令。本文可以教你僅使用 3 行程式碼，大大加快資料預處理的速度。入門｜三行Python程式碼，讓資料預處理速度提高2到6倍 Python 是機器學習領域內的首選程式語言，它易於使用，也有很多出色的庫來幫助你更

三行Python程式碼，讓資料預處理速度提高2到6倍

小編有自己的Python學習交流群865597862 ！進群可以免費領取2018Python最新的學習資料哦！ Python 是機器學習領域內的首選程式語言，它易於使用，也有很多出色的庫來幫助你更快處理資料。但當我們面臨大量資料時，一些問題就會顯現…… 目前，大資料（

幾行Python程式碼，愛上Python程式設計！

Python是一種面向物件的解釋型程式語言，原始碼與直譯器CPython遵守GPL協議，Python語法簡潔清晰。語法簡潔清晰，那麼我們用少量的Python程式碼能做哪些有趣的東西？給大家整理了Python很全面的資料和教程可以下載，加群943752371即可一、畫愛

50 行 Python 程式碼, 解決大部份程式設計師的世紀難題

人們一提到程式設計師第一反應就是：我知道！他們工資很高啊！但大部分都是單身狗，不懂得幽默風趣，只是每天穿格子 polo 衫的宅男一個。甚至程式設計師自己也這樣形容自己：錢多話少死的早。程式設計師總是愛這樣黑自己。大部分的程式設計師都是單身這是一個不爭的事實，也是程式設計師一個世紀難題。但程式設計師並

只需10行Python程式碼，就能實現計算機視覺中目標檢測

只需10行Python程式碼，我們就能實現計算機視覺中目標檢測。 from imageai.Detection import ObjectDetection import os execution_path

基於Tkinter用50行Python程式碼實現簡易計算器

Tkinter一般是python自帶的，所以程式碼不需要其他元件，本程式是在python2.7版本實現的。主要涉及了tkinter的使用，函式定義和呼叫，匿名函式的使用，類成員函式定義等python基礎知識，適合新手學習。程式碼如下： from Tkinter

python實戰，教你用微信每天給女朋友說晚安

但凡一件事，稍微有些重複，我就考慮怎麼樣用程式來實現它。這裡給各位程式設計師朋友分享如何每天給朋友定時微信傳送”晚安“，故事，新聞等等。最好執行在伺服器上，這樣後臺掛起來更方便。準備： **微訊號** pip install **wxpy** pip

10 行 Python 程式碼，批量壓縮圖片 500 張，簡直太強大了

本文原創並首發於公眾號【Python貓】，未經授權，請勿轉載。原文地址：https://mp.weixin.qq.com/s/5hpFDgjCpfb0O1Jg-ycACw 熟悉 “Python貓” 的讀者應該知道，貓哥我釋出的所有文章都使用了極具特色的配圖——原創文章使用貓圖，轉載文章使用狗圖，極少例外

50行Python程式碼，教你獲取公眾號全部文章

1、儲存在Mongo中

2、匯入到PDF檔案中

相關推薦