Python爬蟲(5) 借助搜狗搜索爬取微信文章

阿新 • • 發佈：2019-04-08

public 文章內容 bsp get python爬蟲 header 正則表達式 exce 3.0

借助搜狗搜索爬取微信文章

from urllib import request as r

import re as e

from urllib import error as o

import time as t

#模擬成瀏覽器

headers = {"User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2767.400"}

opener = r.build_opener()

opener.addheaders = [headers]

#將opener安裝為全局

r.install_opener(opener)

#設置一個列表listurl存儲文章網址列表

listurl = []

#自定義函數，功能為使用代理服務器

def use_proxy(proxy_addr,url):

#建立異常處理機制

try:

proxy = r.ProxyHandler({‘http‘:proxy_addr})

opener = r.build_opener(proxy,r.HTTPHandler)

r.install_opener(opener)

data = r.urlopen(url).read().decode(‘utf-8‘)

return data

except o.URLError as u:

if hasattr(u,‘code‘):

print(u.code)

if hasattr(u,‘reason‘):

print(u.reason)

#若為URLError異常，延遲10秒執行

t.sleep(10)

except Exception as x:

print(‘Exception:‘+str(x))

#若為Exception異常，延遲1秒執行

t.sleep(1)

#獲得所有文章鏈接

def getlisturl(key,pagestart,pageend,proxy):

try:

page = pagestart

#編碼關鍵字key

keycode = r.quote(key)

#編碼 &page

# pagecode = r.quote("&page")

#循環抓取各頁面鏈接

for page in range(pagestart,pageend+1):

#分別構建各頁面的url

url = "http://weixin.sogou.com/weixin?type=2&query="+keycode+"&page="+str(page)

#用代理服務器爬取，解決IP封殺問題

data1 = use_proxy(proxy,url)

#獲取文章鏈接的正則表達式

listurlpat = ‘<div class="txt-box">.*?(http://.*?)"‘

listurlpat = ‘href="(http://.*?)"‘

#獲取每頁的所有文章鏈接並添加到列表listurl中

d = e.compile(listurlpat,e.S).findall(data1)

listurl.append(d)

#測試代碼

print("共獲得到"+str(len(listurl))+"頁")

return listurl

except o.URLError as u:

if hasattr(u,‘code‘):

print(u.code)

if hasattr(u,‘reason‘):

print(u.reason)

#若為URLError異常，延遲10秒執行

t.sleep(10)

except Exception as x:

print(‘Exception:‘+str(x))

#若為Exception異常，延遲1秒執行

t.sleep(1)

#通過文章鏈接獲取對應內容

def getcontent(listurl,proxy):

i = 0

#設置本地文件中的開始html編碼

html1=‘‘‘<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<head>

<title>微信文章頁面</title>

</head>

<body>‘‘‘

fh = open("G:\\Pcode\\1.html","wb")

fh.write(html1.encode("utf-8"))

fh.close()

#再次以最佳寫入的方式打開文件，以寫入對應文章內容

fh = open("G:\\Pcode\\1.html","ab")

#此時listurl為二維列表，形如listurl[][]，第一緯存儲的信息跟第幾頁相關，第二緯存儲的跟該頁面第幾個文章鏈接相關

for i in range(0,len(listurl)):

for j in range(0,len(listurl[i])):

try:

url = listurl[i][j]

#處理成真實url，可以觀察對應網址的關系自行分析，采集網址比真實網址多了一串amp

url = url.replace("amp;","")

#使用代理去爬取對應網址的內容

data = use_proxy(proxy,url)

#文章標題正則表達式

titlepat = "<title>(.*?)</title>"

#文章內容正則表達式

contentpat = ‘id="js_content">(.*?)id="js_sg_bar"‘

#通過對應正則表達式找到標題並賦給列表title

title = e.compile(titlepat).findall(data)

#通過對應正則表達式找到內容並賦給列表content

content = e.compile(contentpat,e.S).findall(data)

#初始化標題與內容

thistitle = "此次沒有獲取到"

thiscontent = "此次沒有獲取到"

#如果標題列表不為空，說明找到了標題，取列表第0個元素，即此次標題賦給變量thistitle

if(title != []):

thistitle = title[0]

if(content != []):

thiscontent = content[0]

#將標題與內容匯總賦給變量dataall

dataall = "標題為："+thistitle+"內容為："+thiscontent+" "

#將該篇文章的標題與內容的總信息寫入對應文件

fh.write(dataall.encode(‘utf-8‘))

print(" 第 "+str(i+1)+"個網頁第"+str(j+1)+" 次處理 ") #便於調試

except o.URLError as u:

if hasattr(u, ‘code‘):

print(u.code)

if hasattr(u, ‘reason‘):

print(u.reason)

# 若為URLError異常，延遲10秒執行

t.sleep(10)

except Exception as x:

print(‘Exception:‘ + str(x))

# 若為Exception異常，延遲1秒執行

t.sleep(1)

fh.close()

#設置並寫入本地文件的html後面結束部分代碼

html2=‘‘‘</body>

</html>‘‘‘

fh = open("G:\\Pcode\\1.html","ab")

fh.write(html2.encode("utf-8"))

fh.close()

#設置關鍵字

key = "物聯網"

#設置代碼服務器，該代理服務器有可能失效

proxy = ‘119.101.113.217:9999‘

#可以為getlisturl()與getcontent()設置不同的代理服務器，此處沒有啟用該項設置

proxy2 = ‘‘

#起始頁

pagestart = 1

#終止頁

pageend = 2

listurl = getlisturl(key,pagestart,pageend,proxy)

getcontent(listurl,proxy)

Python爬蟲(5) 借助搜狗搜索爬取微信文章

public 文章內容 bsp get python爬蟲 header 正則表達式 exce 3.0 借助搜狗搜索爬取微信文章 from urllib import request as r import re as e from urllib

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

Python 爬蟲爬取微信文章

微信爬蟲爬取微信文章爬取公眾號文章搜狗微信平臺為入口地址：http://weixin.sogou.com/ --------------------------------------------------------------搜索關鍵詞“科技”對比網址變化情況查看網址http://wei

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python爬蟲：爬取微信文章

import requests from urllib.parse import urlencode from requests.exceptions import ConnectionError from pyquery import PyQuery as

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

23個Python爬蟲開源項目代碼：爬取微信、淘寶、豆瓣、知乎、微博等

公眾 mon 成交個人標簽 req 不同數據存儲百度雲盤來源：全球人工智能作者：SFLYQ 今天為大家整理了23個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

CA external 令行 sta 項目程序 str 輸入 tar 前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。一、代碼實現 1、修改Scrapy項目中的ite

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

python爬蟲之雲片網國內簡訊介面爬取

安裝requests，lxml，openpyxl，pandas四個包。 requests爬取 lxml解析 panda轉換並儲存 openpyxl是讀寫excel檔案所用到的包程式碼奉上： import pandas as pandas import requests from lxm

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

推薦｜23個Python爬蟲開源專案程式碼：爬取微信、淘寶、豆瓣、知乎、微博等

今天為大家整理了23個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向GitHub，祝大家玩的愉快 1、WechatSogou [1]– 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬

python 爬蟲（三）模擬post請求，爬取資料

import urllib.request import urllib.parse url =r"http://www.baidu.com" #將要傳送的資料合成一個字典 #字典的鍵值在網頁裡找 data = { "username":"1507", "password":"230

Python爬蟲(5) 借助搜狗搜索爬取微信文章

借助搜狗搜索爬取微信文章

相關推薦