1. 程式人生 > 實用技巧 >Python爬蟲教程:你還在苦苦拉票嗎?刷票小程式案例原理剖析!

Python爬蟲教程:你還在苦苦拉票嗎?刷票小程式案例原理剖析!

你還在苦苦拉票嗎?

  • 前言
  • 剖析投票原理
  • 處理思路
  • 具體實戰
  • 主要流程
  • 具體細節python
  • 程式碼例項python
  • 具體細節java
  • 程式碼實現java
  • 總結

很多人學習python,不知道從何學起。
很多人學習python,掌握了基本語法過後,不知道在哪裡尋找案例上手。
很多已經做案例的人,卻不知道如何去學習更加高深的知識。
那麼針對這三類人,我給大家提供一個好的學習平臺,免費領取視訊教程,電子書籍,以及課程的原始碼!??¤
QQ群:623406465

前言


現在生活中離不開各類的比賽,然而,各個比賽離不開投票,我們會清一色有時候找到我們的朋友在朋友圈發—幫寶貝投一票,幫某某老師,學生投一票。又或許你自己參加比賽,你在為你自己拉票。

剖析投票原理

作為一名程式設計師,你是否想為自己的生活開一點G呢?熟悉網路請求的我們,應該從問題根源分析問題。對於一個投票的網站。大致分為兩類:

  • 登入類:
    這類網站是確實不太好操作,一般是每個賬戶每天能夠刷若干票。因為賬戶的資源是有限的,我們很難通過獲取大量的賬戶資源為我們服務。況且,一般的登入稍微大廠或者技術高點其中的js加密會比較複雜,對於普通人js水平不高很難行的通這條路。比如常見需要微信登入,qq登陸的網站投票,就很難開掛。
  • 非登入類:
    並不是所有網站都有騰訊的登入授權的,有很多他們自己的官網他們自己就是一個體系。這類網站普通人或許也感覺不到差異:投幾票之後也不能投。然後紛紛找朋友幫忙投。剖析這類網站,既然沒有登入機制,那麼它就是根據ip機制進行鑑定。因為正常你的公網ip相對來說是穩定。所以正常一個使用者只能投固定的幾票。或許高階一點他會和瀏覽器資訊結合鑑定,但這種還是比較少的。

處理思路

既然原理已經剖析完成,那麼剩下的就是設計程式的問題了,對於一個點選投票的事件,它的實質就是一次http(post)請求,然後後臺對資料進行更改。那麼我們就可以對這個操作流程進行抓包,分析這個請求是那種型別,需要那些引數。然後根據這個請求模擬寫出請求。

然而最重要的就是ip代理,你要用代理的ip去訪問那個介面,讓對方以為是你代理的那個ip再對他訪問,所以你需要維護一個代理ip池。對於代理ip池,並不是什麼高大上的東西,準確的來說就是一個集合中包含一些可用的ip,能夠供我使用。市面上也有很多出售代理ip,也不貴。我用的是蘑菇代理。

具體實戰

主要流程

碰巧,最近參加的一個比賽就有拉票環節,如果人為手動拉票的話效率地下,並且你肯定也不會願意天天去舔人家求情。那就自己分析一波!

  1. 首先,開啟你在的網站(有的手機端,電腦端好抓包可調),谷歌或者其他瀏覽器F12抓包,點選network,xhr準備(肯定是ajax請求不用想)。
  2. 分析這個請求的重要引數.(header)
    找到url和幾個引數,就可以準備程式了。模擬請求了

具體細節python

因為這是多次請求,所以要考慮效能的問題和效率問題。不能讓異常漫天飛,中斷,ip白白浪費,或者苦苦等待吧。
對於代理ip,各家賣的雖然有些差異但是大體相同。大致均為賣數量,然後每個ip從開始被用後能夠維持幾分鐘的使用。並且有的ip是不能用的,有的是高延遲的,這些在寫程式的時候都要過濾掉。這裡面就要考慮下這個程式額設計。

  1. 多執行緒:
    python雖然多執行緒有個全域性鎖大大的影響效率。但是對於io請求型多執行緒還是能有一定的提速的。因為io有大量的執行緒等待。多執行緒的模組大致為定義一個執行緒類,定義初始方法和run函式。然後在外面定義幾個執行緒,讓他們跑任務。
  2. ip處理和資源處理
    正常的ip代理是一群ip隨機抽取其中作為代理ip,進行爬取任務,然後ip失效從ip池中刪除。而url的連結一般放到執行緒安全的全域性容器中一個個丟擲。ip放到list或者redis中進行維護,做好try catch異常即可。但是這個刷票只有一個url。並且一個ip只能用有限次數。所以換個思路,url不需要容器維護。而ip用佇列維護最好,並且python的佇列是執行緒安全的。所以整個程式的架構也就很清晰了。只需要用個queue解析ip獲取的格式進行相應儲存。然後被消費,當少於一定個數時,請求api獲取ip進行填充。
  3. 在預處理方面,以前介紹過另一個蘑菇代理使用和ip池類似的問題,可以預先參考。

程式碼例項python

import requests
import random
import time
import threading
from queue import Queue
def loadip():
    url2 = 'http://piping.mogumiao.com/proxy/api/get_ip_al?appKey=f16367295e284173ae450fc38d9098b3&count=20&expiryDate=0&format=1&newLine=2'
    req = requests.get(url2)
    date = req.json()
    if(date['code'])!='3001':
        ipdate2 = date['msg']
        global ipdate
        ipdate.extend(ipdate2)
        for va in ipdate2:
          que.put(va)
        print(ipdate)

class downspider(threading.Thread):
    def __init__(self, threadname, que):
        threading.Thread.__init__(self)
        self.threadname = threadname
        self.que = que

    def run(self):
        print('start thread' + self.threadname)
        while True:
            try:
                print(self.name,end='')
                toupiaospider(que,self.threadname)
            except Exception as e:
                print(e,'888')
                break
def getproxies():
    b = ipdate[0]
    b=que.get()
    d = '%s:%s' % (b['ip'], b['port'])
    global proxies
    proxies['http'] = d
    global msg
    msg = b
    return proxies
def toupiaospider(que,threadname):
    if (que.qsize() < 15):  # 拓展ip池
        loadip()
    proxies2=getproxies()
    for i in range(0,5):
        try:
            #formData['times']=i
            req = requests.post(url, headers=header, data=formData, proxies=proxies2, timeout=1.5)
            res = req.json()
            if res['res']==2001 or req.status_code!=200:
                #ipdate.remove(msg)
                 continue
            print(threadname,res,que.qsize())
        except Exception as e:
            print('errror',e)
            # ipdate.remove(msg)

if __name__ == '__main__':
    ipdate = []
    msg = {}
    proxies = {'http': ''}
    stadus = 0
    que = Queue()
    threads=[]#執行緒
    url='http://yunxin.163.com/api/vote/update'
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
    formData = {
        'Referer':'http://yunxin.163.com/promotion/minichallenge/gallery?from=groupmessage&isappinstalled=0',
        'id':'17',
        'times':'1',
        'activity':'minichallenge1'
    }
    proxies = {'http': '182.247.92.99:21136',
               }
    loadip()
    time.sleep(5)
    threadList = ['thread-1','thread-2','thread-3','thread-4','thread-4']
    for j in threadList:
        thread = downspider(j, que)
        thread.start()
        threads.append(thread)
    for t in threads:
        t.join()

結果

具體細節java

在java中比較棘手的就是java自身對json和http請求的處理不太方便,需要藉助第三方jar,並且一些操作稍顯的繁瑣。

首先java要弄清幾點:

  1. 代理方式:
    java主要有兩種代理方式,一種是jdk全域性代理,另一種是net包下的proxy代理。對於多執行緒程式並且ip只能用一次的當然是用net的proxy代理。
  2. 解析json
    通過api獲取ip,格式固定的,需要藉助fastjson解析json串獲取需要的資訊。
  3. 執行緒安全問題。你可以用執行緒安全的blockqueue,當然其實你可以在操作佇列的方法加上synchronized關鍵字也可以。你可以定義固定的執行緒每個執行緒任務多個。也可以用執行緒池定義多個執行緒類,每個執行緒完成一個任務。
  4. 網路請求雖然urlconnection可以實現,但是太繁瑣,遠比jsoup複雜。所以這裡使用jsoup。

針對上面的問題。寫了個demo測試進行預備,對於獲取ip的api,大致這種格式


首先你要下載fastjson和jsoup的jar包。或者加入maven依賴。(可在maven官網下jar包)

然後寫個demo跑一下

package com.bigsai;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class test2 {
 static int va=1;
 public static void main(String[] args) {
 String ti="{\"code\":\"0\",\"msg\":[{\"port\":\"40034\",\"ip\":\"114.237.64.247\"},{\"port\":\"33257\",\"ip\":\"223.240.210.250\"},{\"port\":\"39618\",\"ip\":\"113.101.255.11\"},{\"port\":\"43151\",\"ip\":\"183.135.106.62\"},{\"port\":\"41795\",\"ip\":\"182.108.44.227\"}]}";
 JSONObject jsonObject= JSON.parseObject(ti);
 String code=(String) jsonObject.get("code");
 JSONArray jsonArray=jsonObject.getJSONArray("msg");

 for(Object te:jsonArray)
 {
 JSONObject team=(JSONObject) te;
 String ip=team.getString("ip");
 int port=team.getInteger("port");
 System.out.println(team " " ip " " port);
 }
 ExecutorService ex= Executors.newFixedThreadPool(10);
 for(int i=0;i<200;i )
 {
 threadtest threadtest=new threadtest();
 ex.execute(threadtest);
 }
 ex.shutdown();
 }
 static synchronized void addva()//去掉註釋試試
 {
 va ;
 try {
 Thread.sleep(200);
 } catch (InterruptedException e) {
 e.printStackTrace();
 }
 System.out.println(Thread.currentThread().getName() " " va);
 }
 static class threadtest implements Runnable{

 @Override
 public void run() {

 addva();
 }
 }
}

觀察結果。列印,這些邊角問題你就明白了。就可以設計java程式了。

程式碼實現java

package com.bigsai;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.IOException;
import java.net.InetSocketAddress;
import java.net.Proxy;
import java.util.ArrayDeque;
import java.util.HashMap;
import java.util.Map;
import java.util.Queue;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class wangyi {

    // 改成你自己的token已經被我改了
    static String ipurl = "http://piping.mogumiao.com/proxy/api/get_ip_al?appKey=f16367295e284173ae3&count=20&expiryDate=0&format=1&newLine=2";

    /**
     * java的多執行緒和python略有不同,但也可以改成相似的 py是5個執行緒每個執行緒死迴圈任務,而java用執行緒池每個執行緒一個任務,只不過new了很多物件
     * 
     * @param args
     */

    static Queue q1;

    public static void main(String[] args) {
     q1=new ArrayDeque();//佇列存放結構體 ip和port
     ExecutorService ex= Executors.newFixedThreadPool(10);
     for(int i=0;i<200;i )
     {
     try {
         Proxy proxy=getproxies(q1);//獲得代理ip
         vote vote=new vote(proxy);
         ex.execute(vote);
     }
     catch (Exception e)
     {e.printStackTrace();}
     }
     ex.shutdown();
 }

    static synchronized Proxy getproxies(Queue q1) throws IOException// 上鎖獲得代理,因為ip只用一次,也可使用自帶的執行緒安全佇列
    {

        if (q1.size() < 15)// 擴充ip池
        {
            String jsonva = Jsoup.connect(ipurl).timeout(2500).get().text();
            JSONObject jsonObject = JSON.parseObject(jsonva);
            String code = (String) jsonObject.get("code");// 狀態嗎
            if (code.equals("0")) {// 正常返回介面
                JSONArray jsonArray = jsonObject.getJSONArray("msg");

                for (Object jsonobj : jsonArray) {
                    JSONObject team = (JSONObject) jsonobj;
                    String ip = team.getString("ip");
                    int port = team.getInteger("port");
                    proxynode node = new proxynode(ip, port);
                    q1.add(node);
                }
            } else
                return null;
        }
        proxynode proxynode = q1.poll();
        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(proxynode.ip, proxynode.port));
        return proxy;
    }

    static class proxynode// 一個node儲存ip和埠
    {
        String ip;
        int port;

        proxynode(String ip, int port) {
            this.ip = ip;
            this.port = port;
        }

    }

    static class vote implements Runnable {

        Proxy proxy;

        vote(Proxy proxy) {
            this.proxy = proxy;
        }

    public void dovote() throws IOException {

 //Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("host", 8888));
 try {

     Connection connect = Jsoup.connect("http://yunxin.163.com/api/vote/update").timeout(2000);
     Map date=new HashMap();
     date.put("id","17");
     date.put("times","1");
     date.put("activity","minichallenge1");
     date.put("Referer","http://yunxin.163.com/promotion/minichallenge/gallery?from=groupmessage&isappinstalled=0");
     date.put("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36");
     connect.data(date);
     connect.ignoreContentType(true);
     connect.proxy(proxy);
     Document doc=connect.post();
     System.out.println(Thread.currentThread().getName() " " proxy.address() " " doc.text());
     }
     catch (Exception e)
     {
     System.out.println(e.toString());
     }

 }

    public void run() {

     try {
     for(int i=0;i<5;i ) {
     dovote();
     }
     } catch (IOException e) {
     e.printStackTrace();
     }
     }
        }
}

結果

總結

在寫爬蟲還是python方便和簡單。因為py對json支援較好(字典),而java強物件型別語法要求較嚴。但是在多執行緒方面java肯定是秒殺py的。因為py的多執行緒是(假)多執行緒。想提高速度的可以研究多程序。

這類問題本質不難的,做過一次就很簡單了。這只是其中一種案例。提供一些思想和解決思路。遇到不同的問題可能需要不同的結構,方式去解決,這就需要融匯貫通。