使用代理服務器挖掘微信文章代碼

阿新 • • 發佈：2018-02-20

try ror ttr input targe findall pat blank type

使用python3.5對weixin.sogou.com中的微信文章進行文章的爬取，瀏覽器為火狐瀏覽器，代理服務器使用fiddler，代碼如下

 1 import re
 2 import urllib.request
 3 import time
 4 import urllib.error
 5 def use_proxy(proxy_addr,url):
 6     try:
 7       req=urllib.request.Request(url)
 8       req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0 
‘)
 9       proxy=urllib.request.ProxyHandler({‘http‘:proxy_addr})
10       opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
11       urllib.request.install_opener(opener)
12       data=urllib.request.urlopen(req).read()
13       return data
14     except urllib.error.URLError as e:
 
15         if(hasattr(e,"code")):
16             print(e.code)
17         if(hasattr(e,"reason")):
18             print(e.reason)
19         time.sleep(10)
20     except Exception as e:
21         print("exception:"+str(e))
22         time.sleep(1)
23 
24 key="Python"
25 proxy="127.0.0.1:8888"
26 for i in 
 range(0,10):
27     key=urllib.request.quote(key)
28     thispageurl="http://weixin.sogou.com/weixin?query="+key+"&_sug_type_=&sut=1777&lkt=7%2C1519106265525%2C1519106267321&s_from=input&_sug_=y&type=2&sst0=1519106267427&page="+str(i)+"&ie=utf8&w=01019900&dr=1"
29     thispagedata=use_proxy(proxy,thispageurl)
30     print(len(str(thispagedata)))
31     pat=‘<a target="_blank" href="(.*?)"‘
32     rs=re.compile(pat,re.S).findall(str(thispagedata))
33     if(len(rs)==0):
34         print("第("+str(i)+")頁沒成功")
35         continue
36     for j in range(0,len(rs)):
37         thisurl=rs[j]
38         thisurl=thisurl.replace("amp;","")
39         file="d:/111"+str(i)+str(j)+".html"
40         thisdata=use_proxy(proxy,thisurl)
41         try:
42             fh=open(file,"wb")
43             fh.write(thisdata)
44             fh.close()
45             print("第"+str(i)+str(j)+"篇文章成功")
46         except Exception as e:
47             print(e)
48             print("第"+str(i)+str(j)+"篇文章不成功")

使用代理服務器挖掘微信文章代碼

try ror ttr input targe findall pat blank type 使用python3.5對weixin.sogou.com中的微信文章進行文章的爬取，瀏覽器為火狐瀏覽器，代理服務器使用fiddler，代碼如下 1 import re 2 i

爬取微信文章代碼

get amp exce exc ror continue pri 火狐瀏覽器 fire 1 import re 2 import urllib.request 3 import time 4 import urllib.error 5 def use_prox

使用redis所維護的代理池抓取微信文章

sge article pri data item referer count ttr fail 搜狗搜索可以直接搜索微信文章，本次就是利用搜狗搜搜出微信文章，獲得詳細的文章url來得到文章的信息.並把我們感興趣的內容存入到mongodb中。因為搜狗搜索微信文章的反爬蟲比

Android版微信小代碼(轉)

一個 get 登錄 switch racer 指點然而系統 sha 以下代碼僅適用於Android版微信； //switchtabpos：讓微信tab更貼合Android Design 如果你並不喜歡微信Android版和iOS端同用一套UI，現在有一個小方法可以實現T

SVN服務器 Linux 開機自動啟動代碼

svn服務器 linux 開機自動啟動代碼 ~ ll /etc/rc.d/rc.local -rwxr-xr-x 1 root root 810 Oct 9 09:30 /etc/rc.d/rc.local ~ cat /etc/rc.d/rc.local #!/bin/bash # THI

asp微信支付代碼證書文件post_url.aspx和post_url.aspx.cs源碼下載

很多 reat value read val ati system app div 很多朋友在網上找的asp支付代碼中都沒有這兩個證書文件，只能是用別人的，但是如果別人把他的網站這個文件刪了，你的支付也就不能用了，今天我就把大家需要的這兩個asp微信支付代碼證書文件post

抓取微信文章：使用代理來處理反爬蟲措施

參考：崔慶才老師教程目標網站分析我們將從搜狗-微信這個網址來爬取微信的文章。 https://weixin.sogou.com/ 輸入“程式設計師”並搜尋：可以看到上方的URL有許多的資訊，我們只保留query、type、page這幾個引數即可。修改p

代理爬取微信文章

from urllib.parse import urlencode import pymongo import requests from lxml.etree import XMLSyntaxError from requests.exceptions import Co

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

實現功能根據登陸後的cookie製作header，請求搜尋微信文章url需要使用urlencode拼接使用代理避免IP被封使用pyquery解析得到需要的欄位資訊爬取文章詳情頁並存儲到M

python實戰筆記之（6）：使用代理處理反爬抓取微信文章

搜狗（http://weixin.sogou.com/）已經為我們做了一層微信文章的爬取，通過它我們可以獲取一些微信文章的列表以及微信公眾號的一些資訊，但是它有很多反爬蟲的措施，可以檢測到你的IP異常，然後把你封掉。本文采用代理的方法處理反爬來抓取微信文章。（1）目標站點

我們恢復HP DL380服務器RAID丟失信息的案例

數據恢復服務器 raid 元器件操作系統【數據恢復故障描述】客戶服務器屬於HP品牌DL380系列，存儲是由6塊73GB SAS硬盤組成的RAID5，操作系統是WINDOWS 2003 SERVER，主要作為企業部門內部的文件服務器來應用，主機（無UPS）故障前經歷過幾次意外斷

如何一鍵收藏微信文章？

朋友收藏公眾賬號微信公眾 div 點擊美好 href 綁定與家人和朋友在微信聊天中留下的文字、圖片、音頻等各種美好信息，需要保存起來收好? 各種微信公眾賬號推送的生活實用小百科、同城活動、震撼新聞，以及經驗總結等文章，需要保存起來隨時待用? 微信中各種有價值的

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

查看linux服務器內存信息

pri grep print ++ ras gin dmi localhost 服務查看服務器內存信息 dmidecode|grep -P -A5 "Memory\s+Device"|grep Size [[email protected]/* */ ho

查看服務器硬件信息

group mod info ber phy 服務 gac har 邏輯cpu 1. 查看物理CPU的個數 #cat /proc/cpuinfo |grep "physical id"|sort |uniq|wc -l2. 查看邏輯CPU的個數#cat /proc/cpui

代理服務器搭建文檔

proxy前言：檢測到jayproxy使用的squid作為代理服務器，固我們也使用此軟件來搭建代理服務器。翻墻分析：Squid是很好的代理服務器，但它不能直接翻墻，因為在連接到Squid的過程中，就已經被墻了。所以得把傳輸的數據先進行加密再傳輸，這樣等於是繞過了防火墻，這裏就需要使用Stunnel來傳輸加密數

基於tinyproxy搭建yum代理服務器

mtu packet onf adc enca 容器 back user spa 在我們實際的工作當中，經常會遇到這種情況，我們對線上服務器進行操作時是通過跳板機來進行的，出於安全性及投入資金來考慮非必要情況下除跳板機以外的服務器是沒有內網ip的，所以當我們位於內網的服務器

代理服務器之趣談工作原理

pan 不能訪問網絡獲取 strong 會有網絡簡單演唱會文章最近經常會有同學們這些問題：代理是什麽意思，我們為什麽要用代理服務器。設置代理了之後，我的瀏覽器或者手機居然不能訪問網站了，我不能接受！問出這樣的問題，一般都是對代理服務器不夠了解，不知其然

微信篩選器急速微信開通過濾程序

微商怎麽做?做什麽產品?要不要去引流呢?這些問題很頭痛啊?是的，做微商的前期的話，我們都在想這些問題，選擇產品的話，有好的渠道可以選，引流的話也是需要選擇好的渠道，粉絲才是最最關鍵的啊! 那麽就來點暴力的吧—介紹一款軟件，微商很實用的微信開通檢測軟件，易哥微信檢測開通軟件，主要實用的領域

squid代理服務器

ip地址客戶端應用層配置文件代理服務器 Squid代理工作在應用層主要提供緩存加速，應用層過濾控制的功能。代理種類：1、傳統代理 2、透明代理 3、反向代理Squid代理/etc/squid/squid.conf 配置文件。62 http_port 3128 默認

使用代理服務器挖掘微信文章代碼

相關推薦