20170820_python實時獲取某網站留言信息

阿新 • • 發佈：2017-08-20

brush 輸入 mozilla ssi 獲取 eight bdr num html

主要用的是request和bs4,遇到最大的問題是目標站是gb2312編碼,python3的編碼雖然比2的處理要好得多但還是好麻煩，

最開始寫的是用cookie模擬登陸,但是這個在實際使用中很麻煩，需要先登陸目標網站,然後把cookie復制下來拷貝到代碼中...懶惰是

第一動力!

準備用火狐的httpfox獲取下目標站post的數據和地址,發現火狐瀏覽器自動升級到了55.x,插件只能用在35.x版本,然後用chrome發現這

個網站提交post請求是打開了一個新的頁面,然後新頁面再點F12就晚了,看不到post了,然後百度一番發現可以設置新標簽頁開啟F12!如圖:

技術分享

然後就知道了這個網站都post了什麽數據,開始用requests模擬post,但是發現每次都登

錄失敗,而且抓取的網頁內容都是亂碼,用了str(‘info‘, encoding=‘utf-8‘)才有所好轉

發現根本就沒有登錄成功,然後提示輸入賬號密碼登錄。

技術分享靈光一閃！！！

估計是我post的數據是utf8而目標站接收post時是gb2312,根本看不懂啊!果斷把用戶名(用戶名是中文!!!) username.encode("gb2312")之後順利登錄成功!然後又

開啟了session保持cookie,持久化登錄。然後每分鐘判斷下最後一個id是否等於保存的id,判斷是否進行抓取。

#-*-coding:utf-8-*- #編碼聲明
import requests,re,time,json,os
from bs4 import BeautifulSoup
from time import strftime,gmtime

LOGIN_URL = ‘http://www.3456.tv/Default.aspx‘  #請求的URL地址
username = ‘用戶名‘
password = ‘password‘
DATA = {"web_top_two2$txtName":username.encode("gb2312"), "web_top_two2$txtPass":password, ‘__VIEWSTATE‘:‘/wEPDwULLTEyNzc4MjM2OTBkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBRh3ZWJfdG9wX3R3bzIkaW1nQnRuTG9naW6/pqbjQqV358GfYjdoiOK+Ek4VWA==‘,‘__EVENTVALIDATION‘:‘/wEWBAL3y5PLCgLHgt+5BgL3r9v/CgLX77PND5R1XxTeGn4lXvBDrb6OdRyc4Xlk‘,‘web_top_two2$imgBtnLogin.x‘:‘22‘,‘web_top_two2$imgBtnLogin.y‘:‘8‘}   #登錄系統的賬號密碼,也是我們請求數據
HEADERS = {‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36‘} #模擬登陸的瀏覽器
S = requests.Session()
login = S.post(LOGIN_URL,data=DATA,headers=HEADERS)  #模擬登陸操作

def getData(num):
    url = ‘http://www.3456.tv/user/list_proxyall.html‘
    res = S.get(url)
    content = res.content
    return content

def getLast():
    url = ‘http://www.3456.tv/user/list_proxyall.html‘
    res = S.get(url)
    content = res.content
    soup = BeautifulSoup(content,‘html.parser‘)
    tb = soup.find_all(‘tr‘,style=‘text-align:center;‘)
    for tag in tb:
        see = tag.find(‘a‘, attrs={‘class‘:‘see‘})
        seestr = see[‘onclick‘]
        seenum = re.sub("\D", "", seestr)
        break
    return seenum

def isNew():
    newlastid = getLast()
    with open(‘lastid.txt‘) as txt:
        last = txt.read()
    if int(newlastid) != int(last):
        print(‘當前時間:‘ + strftime("%H-%M") + ‘,發現新留言,獲取中!‘)
        getNewuser()
    else:
        print(‘當前時間:‘ + strftime("%H-%M") + ‘,暫時沒有新留言‘)

def getNewuser():
    url = ‘http://www.3456.tv/user/list_proxyall.html‘
    res = S.get(url)
    content = res.content
    soup = BeautifulSoup(content,‘html.parser‘)
    tb = soup.find_all(‘tr‘,style=‘text-align:center;‘)

    with open(‘lastid.txt‘) as txt:
        last = txt.read()
    userinfo = ‘‘
    for tag in tb:
        see = tag.find(‘a‘, attrs={‘class‘:‘see‘})
        seestr = see[‘onclick‘]
        seenum = re.sub("\D", "", seestr)
        
        if int(seenum) == int(last):
            break
        userinfo += (str(seeInfo(int(seenum)), encoding = "utf-8") + ‘\n‘)

    userfilename = strftime("%H-%M") + ‘.txt‘
    with open( userfilename, ‘w‘) as f:
        f.write(str(userinfo))
    os.system(userfilename)

    with open(‘lastid.txt‘, ‘w‘) as f2:
        f2.write(str(getLast()))
    print(‘本次抓取完成,當前時間:‘ + strftime("%H-%M") + ‘,60秒後繼續執行‘)

def seeInfo(id):
    url = ‘http://www.3456.tv/user/protel.html‘
    info = {‘id‘:id}
    res = S.get(url,data=info)
    content = res.content
    return content

setsleep = 60 #修改這個設置每次抓取間隔,60為60秒

print(‘this time is today first time start?‘)
firststr = input(‘input yes or no and press enter: ‘)
if firststr == ‘yes‘:
    print(‘正在抓取中...‘)
    lastid = getLast()
    with open(‘lastid.txt‘, ‘w‘) as f:
        f.write(str(lastid))
    print(‘當前時間:‘ + strftime("%H:%M") + ‘,當前第一條數據id為‘ + lastid)
    print(str(setsleep) + ‘秒後繼續執行‘)
else:
    print(str(setsleep) + ‘秒後繼續執行‘)
while 1:
    isNew()
    time.sleep(int(setsleep))

20170820_python實時獲取某網站留言信息

brush 輸入 mozilla ssi 獲取 eight bdr num html 主要用的是request和bs4,遇到最大的問題是目標站是gb2312編碼,python3的編碼雖然比2的處理要好得多但還是好麻煩，最開始寫的是用cookie模擬登陸,但是這個在

獲取網站所有者信息

color nbsp 所有者 print 地址 url 網站所有 clas 工具：　　python+python-whois 安裝：　　 pip install python-whois 用法：　　 import whois #url為網站的URL地址 pri

爬蟲獲取mobike共享單車信息

gzip 找不到 mac os x msg clu strftime number rms break 背景：端午節假期的時候參加了學校的數學建模比賽，題目是關於共享單車的供需匹配問題，需要獲得共享單車的數量和時空分布情況。在苦苦找尋數據無果的情況下決定自己用爬蟲對天

PHP獲取服務器環境信息

虛擬主機 6.2 執行主機名 true 字符 fastcgi port 服務器環境 PHP獲取服務器環境信息 PHP的php_uname() 函數和$_SERVER(服務器和執行環境信息) echo ‘服務器版本和虛擬主機名的字符串‘.$_SERVER[‘SERVER

在Linux與Windows上獲取當前堆棧信息

flow ces mod exe mode return 開發執行 too 在編寫穩定可靠的軟件服務時經常用到輸出堆棧信息，以便用戶/開發者獲取準確的運行信息。常用在日誌輸出，錯誤報告，異常檢測。在Linux有比較簡便的函數獲取堆棧信息: #include <s

獲取電腦屏幕信息

scrolltop height 邊線 round pre nload cnblogs 電腦網頁 <html> <script> function a(){ document.write( "屏幕分辨率為："+screen.width+"*"+s

通過class類獲取類的方法信息

class類 -1 類的方法 .cn ges img 技術分享測試 images 測試：通過class類獲取類的方法信息

Java鏈接HBASE數據庫，創建一個表，刪除一張表，修改表，輸出插入，修改，數據刪除，數據獲取，顯示表信息，過濾查詢，分頁查詢，地理hash

can charat nfa true 目錄結構 dfa byte sin extra 準備工作 1、創建Java的Maven項目創建好的目錄結構如下：另外註意junit的版本，最好不要太高，最開始筆者使用的junit4.12的，發現運行的時候會報錯。最後把Junit

下拉框獲取關聯表的信息

tro () base 返回自己的 option func tip ron 用jq和ajax實現 1.在jsp頁面上 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%><

aNDROID獲取內存基本信息

lis androi .com baidu android 信息基本 oid 5% aNDROID%E5%B8%83%E5%B1%80%E5%B1%9E%E6%80%A7%E5%85%A8%E9%9D%A2%E5%89%96%E6%9E%90 http://music.

用PHP獲取網頁上的信息相對於xpath效率低點

所有 pat ini 自己 str rpo fwrite echo bst 用php實現對網頁的抓取，及信息的收集，其實就是爬數據，具體實現步驟如下，首先應引入兩個文件curl_html_get.php和save_file.php文件，兩個文件具體代碼是這樣

獲取Django-request請求信息

方式 post方式 col cookie pri 數據 ems -s shortcut from django.shortcuts import render, HttpResponsedef index(req): #

獲取響應狀態Status信息、獲取狀態碼Status Code

數據 bootstra 9.png nts web not found sys 獲取 closeable 一般服務器的響應狀態有以下幾種： 200 正常 400 未找到頁面 403 拒絕 500 服務器錯誤比如我們請求bootstrap中文網，此時的狀態碼是200

c#獲取電腦硬件信息參數說明(聲卡篇 Win32_SoundDevice )

ror 能力分配 port ava 清除當前定義 lld Availability --設備的狀態 Caption --對象的簡短描述 ConfigManagerErrorCode --Win32的配置管理器錯誤代碼。 ConfigManagerUserCo

創建及獲取客戶的會話信息

ont odi sql tle odin lang util int lan session對象其主要作用是存儲、獲取用戶會話信息。 long getCreationTime()用於返回session對象創建時間，單位為ms long getLastAccessedTime

獲取當前方法信息+獲取電腦硬件信息

ram 目錄 rac 獲取 microsoft ear emp names dbase 1 /// <summary> 2 /// 獲取當前方法信息 3 /// </summary> 4

獲取WebService的請求信息

abcd lob stream close execution request 技術 form nta 一個已經寫好的項目中有多個WebService，由於之前沒有記錄請求信息的，有時候需要查錯等需要找到當次的請求信息，所以需要加入記錄請求信息的功能。首先想到的是在每一個

如何正確書寫網站版權信息

sys 最新意思聲明流行 all 很好自己格式從法律角度看，版權保護是隨著作品（無論是文字，還是圖片）的問世的即刻就得到版權的保護的，並不是必須要聲明。但是作為慣例，這一小行文字還是有很好加強意識，提醒瀏覽者，所觀看的內容是受到版權保護的。正確的格式應該是

遠程編譯獲取控制臺日誌信息

步驟 span 出錯切換 log 控制 pan 運行 strong 當代碼push到遠程，遠程運行出錯時如何檢查？打開XShell登錄遠程具體步驟： 1、切換至bop項目 2、進入日誌路徑　　2.1右擊選取重置終端　　 3、瀏覽器運行有錯的地方　

Powershell-獲取DHCP地址租用信息

導出csv ilove pin name 相關 size ipv 域名 azure 需求：業務需要獲取現階段DHCP服務器所有地址租用信息。1.首先查看DHCP相關幫助信息：2.確定執行命令並獲取相關幫助信息：help Get-DhcpServerv4Scope名稱 Get

20170820_python實時獲取某網站留言信息

相關推薦