1. 程式人生 > >CGI之C語言篇

CGI之C語言篇

為什麼要進行CGI程式設計? 


   在HTML中,當客戶填寫了表單,並按下了傳送(submit)按鈕後,表單的內容被髮送到了伺服器端,一般的,這時就需要有一個伺服器端指令碼來對錶單的內容進行一些處理,或者是把它們儲存起來,或者是按內容進行一些查詢,或者是一些別的什麼。沒有了CGI,WEB的世界就完全失去了它的互動性,所有的資訊都變成單向的了,而不能夠有任何的反饋。 


   有的人認為可以用JavaScript來代替CGI程式,這其實是一個概念上的錯誤。JavaScript只能夠在客戶瀏覽器中執行,而CGI卻是工作在伺服器上的。他們所做的工作有一些交集,比如表單資料驗證一類的,但是JavaScript是絕對無法取代CGI的。但可以這樣說,如果一項工作即能夠用JavaScript來做,又可以用CGI來做,那麼絕對要使用JavaScript,在執行的速度上,JavaScript比CGI有著先天的優勢
只有那些在客戶端解決不了的問題,比如和某個遠端資料庫互動,這時就應該使用CGI了。 



   簡單的說來,CGI是用來溝通HTML表單和伺服器端程式的介面(interface)。說它是介面,也就是說CGI並不是一種語言,而是可以被其他語言所應用的一個規範集。理論上講,你可以用任何的程式語言來編寫CGI程式,只要在程式設計的時候符合CGI規範所定義的一些東西就可以了。由於C語言在平臺無關性上表現不錯(幾乎在任何的系統平臺下都有其相應編譯器),而且對大多數程式設計師而言都算得上很熟悉(不像Perl),因此,C是CGI程式設計的首選語言之一。這兒我們介紹的,就是如何使用C來編寫CGI程式。 


   作為CGI程式設計的最為簡單的例子,就是進行表單的處理。因而在這篇文章中,我們主要介紹的就是如何用C來編寫CGI程式來進行表單處理。 


GET表單的處理 


   對於那些使用了屬性“METHOD=GET”的表單(或者沒有METHOD屬性,這時候GET是其預設值),CGI定義為:當表單被髮送到伺服器斷後,表單中的資料被儲存在伺服器上一個叫做QUERY_STRING的環境變數中這種表單的處理相對簡單,只要讀取環境變數就可以了。這一點對不同的語言有不同的做法。在C語言中,你可以用庫函式getenv(定義在標準庫函式stdlib中)來把環境變數的值作為一個字串來存取。你可以在取得了字串中的資料後,運用一些小技巧進行型別的轉換,這都是比較簡單的了。在CGI程式中的標準輸出(output)(比如在C中的stdout檔案流)也是經過重定義了的
。它並沒有在伺服器上產生任何的輸出內容,而是被重定向到客戶瀏覽器。這樣,如果編寫一個C的CGI程式的時候,把一個HTML文件輸出到它的stdout上,這個HTML文件會被在客戶端的瀏覽器中顯示出來。這也是CGI程式的一個基本原理。 


   我們來看看具體的程式實現,下面是一段HTML表單: 

<FORM ACTION="/cgi-bin/multi.cgi"> 

	<P>請在下面填入乘數和被乘數,按下確定後可以看到結果。 </p>

<INPUT NAME="m" SIZE="5"> 

<INPUT NAME="n" SIZE="5"></BR> 

<INPUT TYPE="SUBMIT" VALUE="確定"> 

</FORM> 

   我們要實現的功能很簡單,就是把表單中輸入的數值乘起來,然後輸出結果。其實這個功能完全可以用JavaScript來實現,但為了讓程式儘量的簡單易懂,我還是選擇了這個小小的乘法來作為示例。 


   下面就是處理這個表單的CGI程式,對應於FORM標籤中的ACTION屬性值。 

#include <stdio.h>  
#include <stdlib.h>  
  
int main(void) {  
    char *data;  
    long m;  
    long n;  
      
    printf("%s%c%c\n", "Content-Type:text/html;charset=gb2312", 13, 10);  
    printf("<TITLE>Result of multiplication</TITLE>\n");  
    printf("<H3>Result of multiplication</H3>\n");  
    data = getenv("QUERY_STRING");  
    if (data == NULL) {  
        printf("<P>ERROR!Data is not input or data transfer has problem</P>\n");  
    }  
    else if(sscanf(data,"m=%ld&n=%ld", &m, &n) != 2) {  
        printf("<P>ERROR!The input data is invalid, you must input digit number</P>\n");  
    }  
    else {  
        printf("<P>%ld and %ld equals: %ld.\n", m, n, m*n);  
    }  
  
    return 0;  
}  

   具體的C語法就不多講了,我們來看看它作為CGI程式所特殊的地方。 

   前面已經提到標準輸出的內容就是要被顯示在瀏覽器中的內容。第一行的輸出內容是必須的,也是一個CGI程式所特有的:printf("%s%c%c ","Content-Type:text/html",13,10),這個輸出是作為HTML的檔案頭。因為CGI不僅可以像瀏覽器輸出HTML文字,而且可以輸出影象,聲音之類的東西。這一行告訴瀏覽器如何處理接受到的內容。在Content-Type的定義後面跟有兩行的空行,這也是不可缺少的。因為所有CGI程式的頭部輸出都是相近的,因而可以為其定義一個函式,來節省程式設計的時間。這是CGI程式設計常用的一個技巧。 

   程式在後面呼叫了庫函式getevn來得到QUERY_STRING的內容,然後使用sscanf函式把每個引數值取出來,要注意的是sscanf函式的用法。其他的就沒有什麼了,和一般的C程式沒有區別。 

   把程式編譯後,改名為mult.cgi放在/cgi-bin/目錄下面,就可以被表單呼叫了。這樣,一個處理GET方式表單的CGI程式就大功告成了。 

POST表單處理 

   下面我們來考慮另外一種表單傳送方法:POST。假設我們要實現的任務是這樣的:把表單中客戶輸入的一段文字內容新增到伺服器上的一個文字檔案的後面。這可以看作是一個留言版程式的雛形。顯然,這個工作是無法用JavaScript這種客戶端指令碼來實現,也算得上真正意義上的CGI程式了。 

   看起來這個問題和上面講的內容很相近,僅僅是用不同的表單和不同的指令碼(程式)而已。但實際上,這中間是有一些區別的。在上面的例子中,GET的處理方法可以看作是“純查詢(pure query)”型別的,也就是說,它與狀態無關。同樣的資料可以被提交任意的次數,而不會引起任何的問題(除了伺服器的一些小小的開銷)。但是現在的任務就不同了,至少它要改變一個檔案的內容。因而,可以說POST的處理方法是與狀態有關的。這也算是POST和GET的區別之一。而且,GET對於表單的長度是有限制的,而POST則不然,這也是在這個任務中選用POST方法的主要原因。但相對的,對GET的處理速度就要比POST快一些。 

   在CGI的定義中,對於POST型別的表單,其內容被送到CGI程式的標準輸入(在C語言中是stdin),而被傳送的長度被放在環境變數CONTENT_LENGTH中。因而我們要做的就是,在標準輸入中讀入CONTENT_LENGTH長度的字串。從標準輸出讀入資料聽起來似乎要比從環境變數中讀資料來的要容易一些,其實則不然,有一些細節地方要注意,這在下面的程式中可以看到。特別要注意的一點就是:CGI程式和一般的程式有所不同一般的程式在讀完了一個檔案流的內容之後,會得到一個EOF的標誌。但在CGI程式的表單處理過程中,EOF是永遠不會出現的,所以千萬不要讀多於CONTENT_LENGTH長度的字元,否則會有什麼後果,誰也不知道(CGI規範中沒有定義,一般根據伺服器不同而有不同得處理方法)。 

   我們來看看到底如何從POST表單收集資料到CGI程式,下面給出了一個比較簡單的C原始碼: 
#include <stdio.h>
#include <stdlib.h>


#define MAXLEN 80
/* 4 for field name "data", 1 for "=" */
#define EXTRA 5
/* 1 for added line break, 1 for trailing NUL */
#define MAXINPUT MAXLEN+EXTRA+2
#define DATAFILE "./data.txt"
 
void unencode(char *src, char *last, char *dest) {
    for(; src != last; src++, dest++)
        if (*src == '+') {
            *dest = ' ';
        }
        else if(*src == '%') {
            int code;
            if (sscanf(src+1, "%2x", &code) != 1) {
                code = '?';
            }
            *dest = code;
            src +=2;
        }     
        else {
            *dest = *src;
        }
    *dest = '\n';
    *++dest = '\0';
}
 
int main(void) {
    char *lenstr;
    char input[MAXINPUT];
    char data[MAXINPUT];
    long len;


    printf("%s%c%c\n", "Content-Type:text/html;charset=iso-8859-1",13,10);
    printf("<TITLE>Response</TITLE>\n");

    lenstr = getenv("CONTENT_LENGTH");
    if (lenstr == NULL || sscanf(lenstr,"%ld",&len) != 1 || len > MAXLEN) {
        printf("<P>Error in invocation - wrong FORM probably.\n");
    }
    else {
        printf("<p>CONTENT_LENGTH is %ld %d.</p>\n", len, atoi(lenstr));
        // fgets(input, len+1, stdin);
        fgets(input, len+1, stdin);
        unencode(input+EXTRA, input+len, data);


        FILE *fp;
        fp = fopen(DATAFILE, "a+");
        if(fp == NULL) {
            printf("<p>Sorry, cannot store your data.</p>");
        }
        else {
            printf("<p>Your data is: %s.</p>\n",  data);
            fputs(data, fp);
        }
        fclose(fp);


        printf("<p>Thank you! The following contribution of yours has been stored:</br></p>%s\n",data);
    }


    return 0;
}

   從本質上來看,程式先從CONTENT_LENGTH環境變數中得到資料的字長,然後讀取相應長度的字串。因為資料內容在傳輸的過程中是經過了編碼的,所以必須進行相應的解碼。編碼的規則很簡單,主要的有這幾條: 


   1. 表單中每個欄位用欄位名後跟等號,再接上這個欄位的值來表示,每個欄位之間的內容用&連結; 

   2. 所有的空格符號用加號代替,所以在編碼碼段中出現空格是非法的; 

   3. 特殊的字元比如標點符號,和一些有特定意義的字元如“+”,用百分號後跟其對應的ACSII碼值來表示。 

   例如:如果使用者輸入的是: 

   Hello there! 

   那麼資料傳送到伺服器的時候經過編碼,就變成了data=Hello+there%21 上面的unencode()函式就是用來把編碼後的資料進行解碼的。在解碼完成後,資料被新增到data.txt檔案的尾部,並在瀏覽器中回顯出來。 

   把檔案編譯完成後,把它改名為collect.cgi後放在CGI目錄中就可以被表單呼叫了。下面給出了其相應的表單: 

<FORM ACTION="/cgi-bin/collect.cgi" METHOD="POST"> 

	<P>請輸入您的留言(最多80個字元):</BR><INPUT NAME="data" SIZE="60" MAXLENGTH="80"></BR></p>

<INPUT TYPE="SUBMIT" VALUE="確定"> 

</FORM>

   事實上,這個程式只能作為例子,是不能夠正式的使用的。它漏掉了很關鍵的一個問題:當有多個使用者同時向檔案寫入資料時,肯定會有錯誤發生。而對於一個這樣的程式而言,檔案被同時寫入的機率是很大的。因此,在比較正式的留言版程式中,都需要做一些更多的考慮,比如加入一個訊號量,或者是藉助於一個鑰匙檔案等。因為那只是程式設計的技巧問題,在這兒就不多說了。 


   最後,我們來寫一個瀏覽data.txt檔案的的CGI程式,這隻需要把內容輸出到stdout就可以了: 

#include <stdio.h>
#include <stdlib.h>


#define DATAFILE "data.txt"


int main(void) {
    FILE *f = fopen(DATAFILE,"r");
    if(f == NULL) {
        printf("%s%c%c\n", "Content-Type:text/html;charset=iso-8859-1", 13, 10);
        printf("<TITLE>Failure</TITLE>\n");
        printf("<P><EM>Unable to open data file, sorry!</EM></p>");
    }
    else {
        printf("%s%c%c\n", "Content-Type:text/plain;charset=iso-8859-1", 13, 10);
        int ch;
        while ( (ch=getc(f)) != EOF) {
            putchar(ch);
        }
        fclose(f);
    }


    return 0;
}

   這個程式唯一要注意的是:它並沒有把data.txt 包裝成HTML格式後再輸出,而是直接作為簡單文字(plain text)輸出,這隻要在輸出的頭部用text/plain型別代替text/html就可以了,瀏覽器會根據Content-Type的型別自動的選擇相應的處理方法。 


   要觸發這個程式也很簡單,因為沒有資料要輸入,所以只需一個按鈕就可以搞定了: 
<form action="http://127.0.0.1/cgi-bin/view_data.cgi">
    <p>Click the button to view the text content in data.txt</p>
<div><input type="submit" value="View"></div>
</form> 

   到這兒,一些基本的用C編寫CGI程式的原理就講完了。當然,就憑講的這些內容,還很難編寫出一個好的CGI程式,這需要進一步的學習CGI的規範定義,以及一些其他的CGI程式設計特有的技巧。 

   這篇文章的目的,也就是要你瞭解一下CGI程式設計的概念。事實上,現在的一些主流的伺服器端指令碼程式語言如ASP,PHP,JSP等,都基本上具備了CGI程式設計的大部分的功能,但他們在使用上的,確實是比無論用什麼語言進行CGI程式設計都要容易的多。所以在進行伺服器端程式設計的時候,一般都會首先考慮使用這些指令碼程式語言。只有當他們也解決不了,比如要進行一些更為底層的程式設計的時候,才會用到CGI。