用Java開發代理伺服器

阿新 • • 發佈：2019-02-08

代理伺服器的應用非常廣泛。比如，在企業網內部，它可以用來控制員工在工作時瀏覽的Internet內容，阻止員工訪問某些型別的內容或某些指定的網站。代理伺服器實際上扮演著瀏覽器和Web伺服器之間的中間人的角色，能夠對瀏覽器請求進行各種各樣的處理，能夠過濾廣告和Cookie，能夠預先提取Web頁面，使得瀏覽器訪問頁面的速度更快，等等。

基礎知識

不管以哪種方式應用代理伺服器，其監控HTTP傳輸的過程總是如下：

步驟一：內部的瀏覽器傳送請求給代理伺服器。請求的第一行包含了目標URL。
步驟二：代理伺服器讀取該URL，並把請求轉發給合適的目標伺服器。
步驟三：代理伺服器接收來自Internet目標機器的應答，把應答轉發給合適的內部瀏覽器。

例如，假設有一個企業的僱員試圖訪問www.cn.ibm.com網站。如果沒有代理伺服器，僱員的瀏覽器開啟的Socket通向執行這個網站的Web伺服器，從Web伺服器返回的資料也直接傳遞給僱員的瀏覽器。如果瀏覽器被配置成使用代理伺服器，則請求首先到達代理伺服器；隨後，代理伺服器從請求的第一行提取目標URL，開啟一個通向www.cn.ibm.com的Socket。當www.cn.ibm.com返回應答時，代理伺服器把應答轉發給僱員的瀏覽器。

當然，代理伺服器並非只適用於企業環境。作為一個開發者，擁有一個自己的代理伺服器是一件很不錯的事情。例如，我們可以用代理伺服器來分析瀏覽器和Web伺服器的互動過程。測試和解決Web應用中存在的問題時，這種功能是很有用的。我們甚至還可以同時使用多個代理伺服器（大多數代理伺服器允許多個伺服器連結在一起使用）。例如，我們可以有一個企業的代理伺服器，再加上一個用Java編寫的代理伺服器，用來除錯應用程式。但應該注意的是，代理伺服器鏈上的每一個伺服器都會對效能產生一定的影響。

回頁首

設計規劃

正如其名字所示，代理伺服器只不過是一種特殊的伺服器。和大多數伺服器一樣，如果要處理多個請求，代理伺服器應該使用執行緒。下面是一個代理伺服器的基本規劃：

等待來自客戶（Web瀏覽器）的請求。
啟動一個新的執行緒，以處理客戶連線請求。
讀取瀏覽器請求的第一行（該行內容包含了請求的目標URL）。
分析請求的第一行內容，得到目標伺服器的名字和埠。
開啟一個通向目標伺服器（或下一個代理伺服器，如合適的話）的Socket。
把請求的第一行傳送到輸出Socket。
把請求的剩餘部分發送到輸出Socket。
把目標Web伺服器返回的資料傳送給發出請求的瀏覽器。

當然，如果考慮細節的話，情況會更復雜一些。實際上，這裡主要有兩個問題要考慮：第一，從Socket按行讀取資料最適合進一步處理，但這會產生效能瓶頸；第二，兩個Socket之間的連線必需高效。有幾種方法可以實現這兩個目標，但每一種方法都有各自的代價。例如，如果要在資料進入的時候進行過濾，這些資料最好按行讀取；然而，大多數時候，當資料到達代理伺服器時，立即把它轉發出去更適合高效這一要求。另外，資料的傳送和接收也可以使用多個獨立的執行緒，但大量地建立和拆除執行緒也會帶來效能問題。因此，對於每一個請求，我們將用一個執行緒處理資料的接收和傳送，同時在資料到達代理伺服器時，儘可能快速地把它轉發出去。

回頁首

例項

在用Java編寫這個代理伺服器的過程中，注意可重用性是很重要的。因為這樣的話，當我們想要在另一個工程中以不同的方式處理瀏覽器請求時，可以方便地重用該代理伺服器。當然，我們必須注意靈活性和效率之間的平衡。

圖一顯示了本文代理伺服器例項（HttpProxy.java）的輸出介面，當瀏覽器訪問http://www-900.ibm.com/cn/時，代理伺服器向預設日誌裝置（即標準輸出裝置螢幕）輸出瀏覽器請求的URL。圖二顯示了SubHttpProxy的輸出。SubHttpProxy是HttpProxy的一個簡單擴充套件。

圖一

圖二

為了構造代理伺服器，我從Thread基類派生出了HttpProxy類（文章正文中出現的程式碼是該類的一些片斷，完整的程式碼請從本文最後下載）。HttpProxy類包含了一些用來定製代理伺服器行為的屬性，參見Listing 1和表一。

【Listing 1】
/*************************************
 * 一個基礎的代理伺服器類
 *************************************
 */
import java.net.*;
import java.io.*;
public class HttpProxy extends Thread {
    static public int CONNECT_RETRIES=5;
    static public int CONNECT_PAUSE=5;
    static public int TIME-OUT=50;
    static public int BUFSIZ=1024;
    static public boolean logging = false;
    static public OutputStream log=null;
    // 傳入資料用的Socket
    protected Socket socket;
    // 上級代理伺服器，可選
    static private String parent=null;
    static private int parentPort=-1;
    static public void setParentProxy(String name, int pport) {
        parent=name;
        parentPort=pport;
    }
    // 在給定Socket上建立一個代理執行緒。
    public HttpProxy(Socket s) { socket=s; start(); }
    public void writeLog(int c, boolean browser) throws IOException {
        log.write(c);
    }
    public void writeLog(byte[] bytes,int offset,
             int len, boolean browser) throws IOException {
        for (int i=0;i<len;i++) writeLog((int)bytes[offset+i],browser);
    }
    // 預設情況下，日誌資訊輸出到
    // 標準輸出裝置，
    // 派生類可以覆蓋它
    public String processHostName(String url, String host, int port, Socket sock) {
        java.text.DateFormat cal=java.text.DateFormat.getDateTimeInstance();
        System.out.println(cal.format(new java.util.Date()) + " - " +
              url + " " + sock.getInetAddress()+"<BR>");
        return host;
    }

表一
變數/方法	說明
CONNECT_RETRIES	在放棄之前嘗試連線遠端主機的次數。
CONNECT_PAUSE	在兩次連線嘗試之間的暫停時間。
TIME-OUT	等待Socket輸入的等待時間。
BUFSIZ	Socket輸入的緩衝大小。
logging	是否要求代理伺服器在日誌中記錄所有已傳輸的資料（true表示“是”）。
log	一個OutputStream物件，預設日誌例程將向該OutputStream物件輸出日誌資訊。
setParentProxy	用來把一個代理伺服器連結到另一個代理伺服器（需要指定另一個伺服器的名稱和埠）。

當代理伺服器連線到Web伺服器之後，我用一個簡單的迴圈在兩個Socket之間傳遞資料。這裡可能出現一個問題，即如果沒有可操作的資料，呼叫read方法可能導致程式阻塞，從而掛起程式。為防止出現這個問題，我用setSoTimeout方法設定了Socket的超時時間（參見Listing 2）。這樣，如果某個Socket不可用，另一個仍舊有機會進行處理，我不必建立一個新的執行緒。

【Listing 2】
    // 執行操作的執行緒
    public void run() {
    String line;
    String host;
    int port=80;
        Socket outbound=null;
    try {
        socket.setSoTimeout(TIMEOUT);
        InputStream is=socket.getInputStream();
        OutputStream os=null;
        try {
        // 獲取請求行的內容
        line="";
        host="";
        int state=0;
        boolean space;
        while (true) {
            int c=is.read();
            if (c==-1) break;
            if (logging) writeLog(c,true);
            space=Character.isWhitespace((char)c); 
            switch (state) {
            case 0:
            if (space) continue; 
                state=1;
            case 1:
            if (space) {
                state=2;
                continue;
            }
            line=line+(char)c;
            break;
            case 2:
            if (space) continue; // 跳過多個空白字元
                  state=3;
            case 3:
            if (space) {
                state=4;
               // 只分析主機名稱部分
                String host0=host;
                int n;
                n=host.indexOf("//");
                if (n!=-1) host=host.substring(n+2);
                n=host.indexOf('/');
                if (n!=-1) host=host.substring(0,n);
                // 分析可能存在的埠號
                n=host.indexOf(":");
                if (n!=-1) { 
                port=Integer.parseInt(host.substring(n+1));
                host=host.substring(0,n);
                }
                host=processHostName(host0,host,port,socket);
                if (parent!=null) {
                host=parent;
                port=parentPort;
                }
                int retry=CONNECT_RETRIES;
                while (retry--!=0) {
                try {
                    outbound=new Socket(host,port);
                    break;
                } catch (Exception e) { }
                // 等待
                Thread.sleep(CONNECT_PAUSE);
                }
                if (outbound==null) break;
                outbound.setSoTimeout(TIMEOUT);
                os=outbound.getOutputStream();
                os.write(line.getBytes());
                os.write(' ');
                os.write(host0.getBytes());
                os.write(' ');
                pipe(is,outbound.getInputStream(),os,socket.getOutputStream());
                break;
            }
            host=host+(char)c;
            break;
            }
        }
        }
        catch (IOException e) { }
    } catch (Exception e) { }
    finally {
            try { socket.close();} catch (Exception e1) {}
            try { outbound.close();} catch (Exception e2) {}
       }
    }

和所有執行緒物件一樣，HttpProxy類的主要工作在run方法內完成（見Listing 2）。run方法實現了一個簡單的狀態機，從Web瀏覽器每次一個讀取字元，持續這個過程直至有足夠的資訊找出目標Web伺服器。然後，run開啟一個通向該Web伺服器的Socket（如果有多個代理伺服器被連結在一起，則run方法開啟一個通向鏈裡面下一個代理伺服器的Socket）。開啟Socket之後，run先把部分的請求寫入Socket，然後呼叫pipe方法。pipe方法直接在兩個Socket之間以最快的速度執行讀寫操作。

如果資料規模很大，另外建立一個執行緒可能具有更高的效率；然而，當資料規模較小時，建立新執行緒所需要的開銷會抵消它帶來的好處。

Listing 3顯示了一個很簡單的main方法，可以用來測試HttpProxy類。大部分的工作由一個靜態的startProxy方法完成（見Listing 4）。這個方法用到了一種特殊的技術，允許一個靜態成員建立HttpProxy類（或HttpProxy類的子類）的例項。它的基本思想是：把一個Class物件傳遞給startProxy類；然後，startProxy方法利用映像API（Reflection API）和getDeclaredConstructor方法確定該Class物件的哪一個建構函式接受一個Socket引數；最後，startProxy方法呼叫newInstance方法建立該Class物件。

【Listing 3】
// 測試用的簡單main方法
static public void main(String args[]) {
    System.out.println("在埠808啟動代理伺服器/n");
    HttpProxy.log=System.out;
    HttpProxy.logging=false;
    HttpProxy.startProxy(808,HttpProxy.class);
  }
}

【Listing 4】
static public void startProxy(int port,Class clobj) {
  ServerSocket ssock;
  Socket sock;
  try {
      ssock=new ServerSocket(port);
      while (true) {
          Class [] sarg = new Class[1];
          Object [] arg= new Object[1];
          sarg[0]=Socket.class;
          try {
              java.lang.reflect.Constructor cons = clobj.getDeclaredConstructor(sarg);
              arg[0]=ssock.accept();
              cons.newInstance(arg); // 建立HttpProxy或其派生類的例項
          } catch (Exception e) { 
              Socket esock = (Socket)arg[0];
              try { esock.close(); } catch (Exception ec) {}
          }
      }
  } catch (IOException e) {
  }
}

利用這種技術，我們可以在不建立startProxy方法定製版本的情況下，擴充套件HttpProxy類。要得到給定類的Class物件，只需在正常的名字後面加上.class（如果有某個物件的一個例項，則代之以呼叫getClass方法）。由於我們把Class物件傳遞給了startProxy方法，所以建立HttpProxy的派生類時，就不必再特意去修改startProxy。（下載程式碼中包含了一個派生得到的簡單代理伺服器）。

回頁首

結束語

利用派生類定製或調整代理伺服器的行為有兩種途徑：修改主機的名字，或者捕獲所有通過代理伺服器的資料。processHostName方法允許代理伺服器分析和修改主機名字。如果啟用了日誌記錄，代理伺服器為每一個通過伺服器的字元呼叫writeLog方法。如何處理這些資訊完全由我們自己決定――可以把它寫入日誌檔案，可以把它輸出到控制檯，或進行任何其他滿足我們要求的處理。writeLog輸出中的一個Boolean標記指示出資料是來自瀏覽器還是Web主機。

和許多工具一樣，代理伺服器本身並不存在好或者壞的問題，關鍵在於如何使用它們。代理伺服器可能被用於侵犯隱私，但也可以阻隔偷窺者和保護網路。即使代理伺服器和瀏覽器不在同一臺機器上，我也樂意把代理伺服器看成是一種擴充套件瀏覽器功能的途徑。例如，在把資料傳送給瀏覽器之前，可以用代理伺服器壓縮資料；未來的代理伺服器甚至還可能把頁面從一種語言翻譯成另一種語言……可能性永無止境。

用Java開發代理伺服器

用Java開發代理伺服器

用Java開發50個棋類遊戲

用Java開發貪吃蛇遊戲

為何安卓程式用Java開發

基於MCMS用Java開發網站（二）

用Java實現Web伺服器

用fiddler做代理伺服器轉發請求

藉助百度雲中的百度人臉識別用Java開發一個人臉識別

毫無廢話: 從0開始一點一滴用java開發自己的B/S構架--1.2

新手用Linux做代理伺服器三招搞定

用java獲取weblogic伺服器執行埠

用java開發簡易介面測試工具

微信公眾號用java中控伺服器-實現使用者網頁授權和獲取使用JS-SDK許可權

一個用JAVA開發的會話金鑰程式

用java開發Email工具之傳送郵件

linux 伺服器從無到有用docker部署java開發環境

自制數據結構（容器）-java開發用的最多的ArrayList和HashMap

java調用c#開發的webservice

讀取數據庫配置信息的兩種方式（以後開發項目用java鏈接數據庫）-------java基礎知識

Java開發郵件激活功能遇到550 用戶無權登陸/535 Error: authentication failed

用Java開發代理伺服器

相關推薦