python使用webdriver爬取微信公眾號資訊

阿新 • • 發佈：2019-02-20

# -*- coding: utf-8 -*-
from selenium import webdriver
import time
import json
import requests
import re
import random

#微信公眾號賬號
user=""
#公眾號密碼
password=""
#設定要爬取的公眾號列表
gzlist=['香河微服務']

#登入微信公眾號，獲取登入之後的cookies資訊，並儲存到本地文字中
def weChat_login():
    #定義一個空的字典，存放cookies內容
post={}

    #用webdriver啟動谷歌瀏覽器
 
print("啟動瀏覽器，開啟微信公眾號登入介面")
    driver = webdriver.Chrome(executable_path='E:\\program\\chromedriver.exe')
    #開啟微信公眾號登入頁面
driver.get('https://mp.weixin.qq.com/')
    #等待5秒鐘
time.sleep(5)
    print("正在輸入微信公眾號登入賬號和密碼......")
    #清空賬號框中的內容
driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input" 
).clear()
    #自動填入登入使用者名稱
driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input").send_keys(user)
    #清空密碼框中的內容
driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").clear()
    #自動填入登入密碼
driver.find_element_by_xpath("//*[@id=\"header 
\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").send_keys(password)

    # 在自動輸完密碼之後需要手動點一下記住我
print("請在登入介面點選:記住賬號")
    time.sleep(10)
    #自動點選登入按鈕進行登入
driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[4]/a").click()
    # 拿手機掃二維碼！
print("請拿手機掃碼二維碼登入公眾號")
    time.sleep(20)
    print("登入成功")
    #重新載入公眾號登入頁，登入之後會顯示公眾號後臺首頁，從這個返回內容中獲取cookies資訊
driver.get('https://mp.weixin.qq.com/')
    #獲取cookies
cookie_items = driver.get_cookies()

    #獲取到的cookies是列表形式，將cookies轉成json形式並存入本地名為cookie的文字中
for cookie_item in cookie_items:
        post[cookie_item['name']] = cookie_item['value']
    cookie_str = json.dumps(post)
    with open('cookie.txt', 'w+') as f:
        f.write(cookie_str)
    print("cookies資訊已儲存到本地")

#爬取微信公眾號文章，並存在本地文字中
def get_content(query):
    #query為要爬取的公眾號名稱
    #公眾號主頁
url = 'https://mp.weixin.qq.com'
#設定headers
header = {
        "HOST": "mp.weixin.qq.com",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"
}

    #讀取上一步獲取到的cookies
with open('cookie.txt', 'r') as f:
        cookie = f.read().decode("UTF-8")
    cookies = json.loads(cookie)

    #登入之後的微信公眾號首頁url變化為：https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598，從這裡獲取token資訊
response = requests.get(url=url, cookies=cookies)
    token = re.findall(r'token=(\d+)', str(response.url))[0]

    #搜尋微信公眾號的介面地址
search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
#搜尋微信公眾號介面需要傳入的引數，有三個變數：微信公眾號token、隨機數random、搜尋的微信公眾號名字
query_id = {
        'action': 'search_biz',
'token' : token,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'random': random.random(),
'query': query,
'begin': '0',
'count': '5'
}
    #開啟搜尋微信公眾號介面地址，需要傳入相關引數資訊如：cookies、params、headers
search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id)
    #取搜尋結果中的第一個公眾號
lists = search_response.json().get('list')[0]
    #獲取這個公眾號的fakeid，後面爬取公眾號文章需要此欄位
fakeid = lists.get('fakeid')

    #微信公眾號文章介面地址
appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
#搜尋文章需要傳入幾個引數：登入的公眾號token、要爬取文章的公眾號fakeid、隨機數random
query_id_data = {
        'token': token,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'random': random.random(),
'action': 'list_ex',
'begin': '0',#不同頁，此引數變化，變化規則為每頁加5
'count': '5',
'query': '',
'fakeid': fakeid,
'type': '9'
}
    #開啟搜尋的微信公眾號文章列表頁
appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
    #獲取文章總數
max_num = appmsg_response.json().get('app_msg_cnt')
    #每頁至少有5條，獲取文章總的頁數，爬取時需要分頁爬
num = int(int(max_num) / 5)
    #起始頁begin引數，往後每頁加5
begin = 0
while num + 1 > 0 :
        query_id_data = {
            'token': token,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'random': random.random(),
'action': 'list_ex',
'begin': '{}'.format(str(begin)),
'count': '5',
'query': '',
'fakeid': fakeid,
'type': '9'
}
        print('正在翻頁：--------------',begin)

        #獲取每一頁文章的標題和連結地址，並寫入本地文字中
query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
        fakeid_list = query_fakeid_response.json().get('app_msg_list')
        for item in fakeid_list:
            content_link=item.get('link')
            content_title=item.get('title')
            fileName=query+'.txt'
# with open('e://xhwfw.txt','a') as fh:
                # fh.write(content_title+":\n"+content_link+"\n")
print content_title+":\n"+content_link+"\n"
num -= 1
begin = int(begin)
        begin+=5
time.sleep(2)

if __name__=='__main__':
    try:
        #登入微信公眾號，獲取登入之後的cookies資訊，並儲存到本地文字中
weChat_login()
        #登入之後，通過微信公眾號後臺提供的微信公眾號文章介面爬取文章
for query in gzlist:
            #爬取微信公眾號文章，並存在本地文字中
print("開始爬取公眾號："+query)
            get_content(query)
            print("爬取完成")
    except Exception as e:
        print(str(e))

python使用webdriver爬取微信公眾號資訊

# -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公眾號賬號 user=""

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

python3 scrapy爬取微信公眾號及歷史資訊V2.0

程式碼部分，日後補充： # -*- coding: utf-8 -*- # @Time : 2018/2/25 14:24 # @Author : 蛇崽 # @Email : [email protected] # @File

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

Python爬取微信公眾號歷史文章進行資料分析

思路： 1. 安裝代理AnProxy，在手機端安裝CA證書，啟動代理，設定手機代理； 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面； 4. 使用Monkeyrunner控制滑屏；獲取更多的歷史訊息； 5. 記錄文章標題，摘要，建立時間，創作型別，地

使用anyproxy+安卓模擬器自動爬取微信公眾號資料-包括閱讀數和點贊數

本文並非作者原創，本文來自 zsyoung 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/zsyoung/article/details/78849982?utm_source=copy 在這裡只是把相關步驟清晰明化一下： 1.安裝node.js &n

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面，實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

爬取微信公眾號

1.抓取公眾號歷史記錄首先利用Fiddler4抓包，監聽手機流量 .手機電腦連線同一網路，手機需設定代理，伺服器為電腦ip，埠號為8888，fiddler也需要設定，不會百度看看點選手機公眾號“檢視歷史訊息”。注意fiddler抓的請求，第二個即為歷史訊息那個請求，

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

輿情監控系統——step1.爬取微信公眾號文章

小明醬於2018年元旦更新，寫的還是很糙，如果你在爬蟲問題中遇到問題，歡迎交流哦，評論區隨時為你開放！實習兩週過去了，目前任務量還不是很大。我的老闆很nice，是個軍校生，給我安排的任務也比我預想的要貼近我的研究方向，做的是微信公眾號文章的輿情監控系統，以下

php利用curl爬蟲爬取微信公眾號，防止ip封鎖

前段時間遇到一個需求，是定向抓取一批微信公眾號，於是找到了搜狗搜尋引擎比較好，下面貼出原始碼，各位可以試下 public function test(){ //搜狗抓取微信公眾號 $url="http://weixin.sogou.com/weixin?type=1&

爬取微信公眾號內容——繪製詞雲

寫在前面的話前段時間寫了一篇通過搜狗引擎獲取微信公眾號的文章，最近又看了一個網易雲歌詞繪製詞雲的程式然後我就想，能否把這兩者結合起來呢還好經歷幾多波折終於把這個東西給弄出來了。其實中間的實現不是很難，關鍵是環境搭建實在是太困難了好了，先把程式碼以及效果圖奉

pythom爬取微信公眾號最新部分文章（可執行程式碼）

執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium pip install pyExcelerator pip install

python爬蟲(17)爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（上）

抓取微信公眾號的文章一.思路分析目前所知曉的能夠抓取的方法有： 1、微信APP中微信公眾號文章連結的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&am

python爬蟲（17）爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（下）（windows版本）

前兩天在linux 上面寫了一版爬取微信公眾號的文章今天重新修改一下，讓它在windows上面也能執行執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium

python通過手機抓取微信公眾號

使用 Fiddler 抓包分析公眾號開啟微信隨便選擇一個公眾號，檢視公眾號的所有歷史文章列表在 Fiddler 上已經能看到有請求進來了，說明公眾號的文章走的都是HTTPS協議，這些請求就是微信客戶端向微信伺服器傳送的HTTP請求。模擬微信請求 1

利用搜狗抓取微信公眾號文章

微信一直是一個自己玩的小圈子，前段時間搜狗推出的微信搜尋帶來了一絲曙光。搜狗搜尋推出了內容搜尋和公眾號搜尋兩種，利用後者可以抓取微信公眾號的最新內容，看了下還是比較及時的。每個公眾號都有一個openid，最早可以直接利用http://weixin.sogou

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

python使用webdriver爬取微信公眾號資訊

相關推薦