1. 程式人生 > 實用技巧 >微信公眾號資料採集

微信公眾號資料採集

目錄

一、採集公眾號文章URL

1.執行環境

1.Webdriver

2.python執行環境

3.cx-oracle

4.lxml

5.註冊一個微信公眾號

2.採集文章連線

1.配置config.txt

2.啟動程式

二、採集文章詳細資訊

1.配置detail_config.txt

2.啟動程式

三、資料

1.資料庫

2.Execl


最近統計感興趣的公眾號的閱讀資料,這篇文章就記錄一下實現過程。本文只用於學習交流,請勿他用。

一、採集公眾號文章URL

本程式主要考慮是在window下執行,在執行之前,請確保已有python的基本執行環境,以及相關的python外掛。

1.執行環境

1.Webdriver

確保window環境有google瀏覽器,如果你所使用的google瀏覽器版本不知支援程式中所提供的webdriver,有以下解決方式:

一是下載自己電腦中google瀏覽器版本所對應的webdriver

二是安裝檔案中提供的gongle瀏覽器

三是自己查詢其他瀏覽器的對應的webdriver(這裡不建議這麼做,除非自己能搞定遇到的問題)

2.python執行環境

python版本>=3.6

3.cx-oracle

版本 5.3這個版本對應伺服器上的oracle資料庫版本11g,其他版本連線不上

pip install oracle==5.3

4.lxml

execl檔案操作需要的外掛

pip install lxml

5.註冊一個微信公眾號

用已有的也行

2.採集文章連線

1.配置config.txt

這個檔案可以配置多個公眾號,程式會將所配置的公眾號的文章url採集下來,注意格式為:

每個公眾號一行

公眾號名 起始時間 結束時間

即需要採集的公眾號名稱,採集的開始時間,結束時間,以空格隔開,程式只會儲存起始時間,結束時間內的文章資料。

2.啟動程式

點選JZTravel_Artical_Url.bat,微信掃一掃,登入自己的微信公眾號,登入成功後,會進入微信公眾號頁面,不要關閉這個頁面,因為程式會自動將這個頁面退出,頁面退出後程序將採集文章url。

程式執行結束後,會在data

資料夾下產生相應的檔案,裡面儲存著需要採集的微信公眾號文章的url。

注意:登入過程中,可能出現以下報錯,不用急,這可能是當前網路問題,導致頁面上的資料載入不全導致,重試幾次就行。

二、採集文章詳細資訊

1.配置detail_config.txt

採集公眾號詳情的配置檔案

注意:由於cookie的原因,這個檔案只能配置一個公眾號資訊,並且這個需要採集的公眾號必須和cookie中的連線對應,格式為

公眾號名稱|資料儲存方式

即需要採集的公眾號,儲存方式,”|”分開,包存方式有三種,xls—儲存為execloracle—儲存到oracle資料庫,other—同時儲存到execl檔案和Oracle資料庫。根據實際選擇需要。

2.啟動程式

點選JZTravel_Artical_Detail.bat,程式將自動採集文章的詳細資料。

注意:

報錯一:程式出現以下錯誤時,不會影響採集程式,也不會影響採集結果

報錯二:程式出現以下錯誤時,是cookie失效導致的,需要從新匯入cookie資料,不用擔心,已經採集過的文章資料,不會重複採集。

報錯三:程式出現以下錯誤時,是爬蟲程式寫入的Excel檔案被打開了,需要關閉檔案重新啟動程式,也就是說,爬蟲採集的過程中是不能開啟execl檔案的。

三、資料

考慮到實際執行爬蟲的網路環境,這裡採用資料多重備份。包括資料本地檔案備份和資料庫備份。

1.資料庫

2.Execl

按照採集日期分開儲存。

本文只用於學習交流,請勿他用。技術支援,扣扣:3165845957