java獲取微信公總號推送的所有資訊的url,用於爬取微信推送的文章內容

阿新 • • 發佈：2019-02-10

場景描述：

在使用者提出需要爬取微信公總號推送訊息的時候，感覺是懵逼的，之前從來沒爬取過，無從下手，沒辦法顧客是上帝，既然使用者提出了需求，我們只能想法去解決問題。

然後根據使用者提供微信公總號安泰科現貨報價去爬取，發現公總號推送的訊息的url並不是固定不變的，這咋整。好在對於我們開發人員來說有度娘，ok,百度一下，發現搜狗微信能解決該問題。寫了一個測試發現，果然能解決，之後就有了這篇博文，用來記錄，免得忘記，也多少能給大家一些參考，廢話不多說，言歸正傳：

首先需要jsoup的jar包，我用的1.10.2版本。

		<!-- jsoup -->
		<dependency>
		    <groupId>org.jsoup</groupId>
		    <artifactId>jsoup</artifactId>
		    <version>1.10.2</version>
		</dependency>

然後是測試類的程式碼，簡單的註釋已經寫上，如下

package crawler;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;

/**
 * 微信公總號測試類
 * @author siqiangming 2018年5月9日 上午9:59:18
 */
public class WeChatTest{
	@Test
	public void getFirst(){
		String baseUrl = "http://weixin.sogou.com/weixin?type=1&ie=utf8&query=";//搜狗微信的基礎地址
    	String searchUrl = baseUrl + "gh_3756da4d163e";//加上安泰科現貨價格的微信公總號
    	Document document = getDocument(searchUrl);
    	String listUrl = document.select(".tit a").attr("href");//查詢到所有列表資訊的url
    	System.out.println(listUrl);
    	System.out.println("-----------------------");
    	Document doc = getDocument(listUrl);
    	//擷取前10條推送資訊的json中的list資料
    	String jsonList = doc.html().split("var msgList = ")[1].split("seajs.use")[0].trim();
    	//截取出來第一條資訊的url
    	String url = jsonList.split("content_url\":\"")[1].split("\",\"copyright_stat")[0].replaceAll("amp;", "");
    	if(url.startsWith("/s")){//如果url以/s開頭，處理成http格式
    		url = "http://mp.weixin.qq.com" + url;
    	}
    	System.out.println(url);
    	//獲取第一條推送資訊的標題
    	String title = jsonList.split("title\":\"")[1].split("\"},\"comm_msg_info")[0];
    	System.out.println(title);
	}
	
	/**
	 * 獲取頁面
	 * @author siqiangming 2018年5月9日 下午2:23:01
	 * @param url url
	 * @return
	 */
	public Document getDocument(String url){
		Document document = null;
		try {
			document = Jsoup.connect(url).get();
		} catch (IOException e) {
			e.printStackTrace();
		}
		return document;
	}
}

ok,url已經獲取到，剩下的爬取的就省略了。

java獲取微信公總號推送的所有資訊的url,用於爬取微信推送的文章內容

場景描述：在使用者提出需要爬取微信公總號推送訊息的時候，感覺是懵逼的，之前從來沒爬取過，無從下手，沒辦法顧客是上帝，既然使用者提出了需求，我們只能想法去解決問題。然後根據使用者提供微信公總號安泰科現貨報價去爬取，發現公總號推送的訊息的url並不是固定不變

微信公總號訊息推送

* 任務完成給製作者推送訊息 &nbs

爬取一個天氣預報結合微信公總號發送

verify apple ade urn 1.5 pytho elf 二維碼 decode 最近看見我的一個朋友些的一個爬取天氣預報的爬蟲不錯，後來發現每次執行發送的時候非常的不方便，每次都要掃描二維碼，就想起了以前zabbi公總號的方法傳送天氣預報信息：/test cat

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

Python爬取微信公眾號歷史文章進行資料分析

思路： 1. 安裝代理AnProxy，在手機端安裝CA證書，啟動代理，設定手機代理； 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面； 4. 使用Monkeyrunner控制滑屏；獲取更多的歷史訊息； 5. 記錄文章標題，摘要，建立時間，創作型別，地

使用anyproxy+安卓模擬器自動爬取微信公眾號資料-包括閱讀數和點贊數

本文並非作者原創，本文來自 zsyoung 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/zsyoung/article/details/78849982?utm_source=copy 在這裡只是把相關步驟清晰明化一下： 1.安裝node.js &n

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

java獲取本機CPU序列號

package util; import java.io.BufferedReader; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.InputSt

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面，實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

爬取微信公眾號

1.抓取公眾號歷史記錄首先利用Fiddler4抓包，監聽手機流量 .手機電腦連線同一網路，手機需設定代理，伺服器為電腦ip，埠號為8888，fiddler也需要設定，不會百度看看點選手機公眾號“檢視歷史訊息”。注意fiddler抓的請求，第二個即為歷史訊息那個請求，

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

輿情監控系統——step1.爬取微信公眾號文章

小明醬於2018年元旦更新，寫的還是很糙，如果你在爬蟲問題中遇到問題，歡迎交流哦，評論區隨時為你開放！實習兩週過去了，目前任務量還不是很大。我的老闆很nice，是個軍校生，給我安排的任務也比我預想的要貼近我的研究方向，做的是微信公眾號文章的輿情監控系統，以下

php利用curl爬蟲爬取微信公眾號，防止ip封鎖

前段時間遇到一個需求，是定向抓取一批微信公眾號，於是找到了搜狗搜尋引擎比較好，下面貼出原始碼，各位可以試下 public function test(){ //搜狗抓取微信公眾號 $url="http://weixin.sogou.com/weixin?type=1&

python3 scrapy爬取微信公眾號及歷史資訊V2.0

程式碼部分，日後補充： # -*- coding: utf-8 -*- # @Time : 2018/2/25 14:24 # @Author : 蛇崽 # @Email : [email protected] # @File

JAVA獲取CPUID、主機板序列號、硬碟序列號、MAC地址

最近在修改公司licence程式,需要獲取到更多的硬體唯一標識,以便加密使用。網上看了很多大神的部落格，思路大概整理了一下，根據系統型別分為兩種方式：一、windows通過建立vbs指令碼，然後使用Runtime.getRuntime().exec()執行指令碼，獲取序列號等

爬取微信公眾號內容——繪製詞雲

寫在前面的話前段時間寫了一篇通過搜狗引擎獲取微信公眾號的文章，最近又看了一個網易雲歌詞繪製詞雲的程式然後我就想，能否把這兩者結合起來呢還好經歷幾多波折終於把這個東西給弄出來了。其實中間的實現不是很難，關鍵是環境搭建實在是太困難了好了，先把程式碼以及效果圖奉

pythom爬取微信公眾號最新部分文章（可執行程式碼）

執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium pip install pyExcelerator pip install

python使用webdriver爬取微信公眾號資訊

# -*- coding: utf-8 -*- from selenium import webdriver import time import json import requests import re import random #微信公眾號賬號 user=""

java獲取微信公總號推送的所有資訊的url,用於爬取微信推送的文章內容

相關推薦