1. 程式人生 > 其它 >Golang語言社群--瞭解C++ 用libcurl庫進行http通訊網路程式設計

Golang語言社群--瞭解C++ 用libcurl庫進行http通訊網路程式設計

一、LibCurl基本程式設計框架
二、一些基本的函式
三、curl_easy_setopt函式部分選項介紹
四、curl_easy_perform 函式說明(error 狀態碼)
五、libcurl使用的HTTP訊息頭
六、獲取http應答頭資訊
七、多執行緒問題
八、什麼時候libcurl無法正常工作
九、關於密碼
十、HTTP驗證
十一、程式碼示例     1.基本的http GET/POST操作     2 獲取html網頁     3 網頁下載儲存例項     4 進度條例項顯示檔案下載進度     5 斷點續傳例項

一、LibCurl基本程式設計框架 libcurl是一個跨平臺的網路協議庫,支援http, https, ftp, gopher, telnet, dict, file, 和ldap 協議。libcurl同樣支援HTTPS證書授權,HTTP POST, HTTP PUT, FTP 上傳, HTTP基本表單上傳,代理,cookies,和使用者認證。想要知道更多關於libcurl的介紹,可以到官網 http://curl.haxx.se/

上去了解,在這裡不再詳述。

win32版的libcurl下載地址:http://curl.freeby.pctools.cl/download/libcurl-7.18.0-win32-msvc.zip

在基於LibCurl的程式裡,主要採用callback function (回撥函式)的形式完成傳輸任務,使用者在啟動傳輸前設定好各類引數和回撥函式,當滿足條件時libcurl將呼叫使用者的回撥函式實現特定功能。下面是利用libcurl完成傳輸任務的流程:

1. 呼叫curl_global_init()初始化libcurl 2. 呼叫curl_easy_init()函式得到 easy interface型指標 3. 呼叫curl_easy_setopt()

設定傳輸選項 4. 根據curl_easy_setopt()設定的傳輸選項,實現回撥函式以完成使用者特定任務 5. 呼叫curl_easy_perform()函式完成傳輸任務 6. 呼叫curl_easy_cleanup()釋放記憶體 在整過過程中設定curl_easy_setopt()引數是最關鍵的,幾乎所有的libcurl程式都要使用它。

二、一些基本的函式 1.CURLcode curl_global_init(long flags); 描述: 這個函式只能用一次。(其實在呼叫curl_global_cleanup 函式後仍然可再用) 如果這個函式在curl_easy_init函式呼叫時還沒呼叫,它講由libcurl庫自動呼叫,所以多執行緒下最好主動呼叫該函式以防止線上程中curl_easy_init時多次呼叫。

注意:雖然libcurl是執行緒安全的,但curl_global_init是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。 引數:flags CURL_GLOBAL_ALL //初始化所有的可能的呼叫。 CURL_GLOBAL_SSL //初始化支援 安全套接字層。 CURL_GLOBAL_WIN32 //初始化win32套接字型檔。 CURL_GLOBAL_NOTHING //沒有額外的初始化。

2 void curl_global_cleanup(void); 描述:在結束libcurl使用的時候,用來對curl_global_init做的工作清理。類似於close的函式。

注意:雖然libcurl是執行緒安全的,但curl_global_cleanup是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。

3 char *curl_version( ); 描述: 列印當前libcurl庫的版本。

4 CURL *curl_easy_init( ); 描述: curl_easy_init用來初始化一個CURL的指標(有些像返回FILE型別的指標一樣). 相應的在呼叫結束時要用curl_easy_cleanup函式清理. 一般curl_easy_init意味著一個會話的開始. 它會返回一個easy_handle(CURL*物件), 一般都用在easy系列的函式中.

5 void curl_easy_cleanup(CURL *handle); 描述: 這個呼叫用來結束一個會話.與curl_easy_init配合著用. 引數: CURL型別的指標.

6 CURLcode curl_easy_setopt(CURL *handle, CURLoption option, parameter); 描述: 這個函式最重要了.幾乎所有的curl 程式都要頻繁的使用它.它告訴curl庫.程式將有如何的行為. 比如要檢視一個網頁的html程式碼等.(這個函式有些像ioctl函式)引數: 1 CURL型別的指標 2 各種CURLoption型別的選項.(都在curl.h庫裡有定義,man 也可以檢視到) 3 parameter 這個引數 既可以是個函式的指標,也可以是某個物件的指標,也可以是個long型的變數.它用什麼這取決於第二個引數. CURLoption 這個引數的取值很多.具體的可以檢視man手冊.

7 CURLcode curl_easy_perform(CURL *handle);

描述:這個函式在初始化CURL型別的指標 以及curl_easy_setopt完成後呼叫. 就像字面的意思所說perform就像是個舞臺.讓我們設定的 option 運作起來.引數: CURL型別的指標.

三、 curl_easy_setopt函式部分選項介紹 本節主要介紹curl_easy_setopt中跟http相關的引數。該函式是curl中非常重要的函式,curl所有設定都是在該函式中完成的,該函式的設定選項眾多,注意本節的闡述的只是部分常見選項。

1. CURLOPT_URL 設定訪問URL

2. CURLOPT_WRITEFUNCTION,CURLOPT_WRITEDATA 回撥函式原型為:size_t function( void *ptr, size_t size, size_t nmemb, void *stream); 函式將在libcurl接收到資料後被呼叫,因此函式多做資料儲存的功能,如處理下載檔案。CURLOPT_WRITEDATA 用於表明CURLOPT_WRITEFUNCTION函式中的stream指標的來源。

如果你沒有通過CURLOPT_WRITEFUNCTION屬性給easy handle設定回撥函式,libcurl會提供一個預設的回撥函式,它只是簡單的將接收到的資料列印到標準輸出。你也可以通過 CURLOPT_WRITEDATA屬性給預設回撥函式傳遞一個已經開啟的檔案指標,用於將資料輸出到檔案裡。

3. CURLOPT_HEADERFUNCTION,CURLOPT_HEADERDATA 回撥函式原型為 size_t function( void *ptr, size_t size,size_t nmemb, void *stream); libcurl一旦接收到http 頭部資料後將呼叫該函式。CURLOPT_WRITEDATA 傳遞指標給libcurl,該指標表明CURLOPT_HEADERFUNCTION 函式的stream指標的來源。

4. CURLOPT_READFUNCTION CURLOPT_READDATA libCurl需要讀取資料傳遞給遠端主機時將呼叫CURLOPT_READFUNCTION指定的函式,函式原型是:size_t function(void *ptr, size_t size, size_t nmemb,void *stream). CURLOPT_READDATA 表明CURLOPT_READFUNCTION函式原型中的stream指標來源。

5. CURLOPT_NOPROGRESS,CURLOPT_PROGRESSFUNCTION,CURLOPT_PROGRESSDATA 跟資料傳輸進度相關的引數。CURLOPT_PROGRESSFUNCTION 指定的函式正常情況下每秒被libcurl呼叫一次,為了使CURLOPT_PROGRESSFUNCTION被呼叫,CURLOPT_NOPROGRESS必須被設定為false,CURLOPT_PROGRESSDATA指定的引數將作為CURLOPT_PROGRESSFUNCTION指定函式的第一個引數

6. CURLOPT_TIMEOUT,CURLOPT_CONNECTIONTIMEOUT: CURLOPT_TIMEOUT 由於設定傳輸時間,CURLOPT_CONNECTIONTIMEOUT 設定連線等待時間

7. CURLOPT_FOLLOWLOCATION 設定重定位URL

8. CURLOPT_RANGE: CURLOPT_RESUME_FROM: 斷點續傳相關設定。CURLOPT_RANGE 指定char *引數傳遞給libcurl,用於指明http域的RANGE頭域,例如: 表示頭500個位元組:bytes=0-499 表示第二個500位元組:bytes=500-999 表示最後500個位元組:bytes=-500 表示500位元組以後的範圍:bytes=500- 第一個和最後一個位元組:bytes=0-0,-1 同時指定幾個範圍:bytes=500-600,601-999 CURLOPT_RESUME_FROM 傳遞一個long引數給libcurl,指定你希望開始傳遞的 偏移量。

四、 curl_easy_perform 函式說明(error 狀態碼) 該函式是完成curl_easy_setopt指定的所有選項,本節重點介紹curl_easy_perform的返回值。返回0意味一切ok,非0代表錯誤發生。主要錯誤碼說明: 1. CURLE_OK 任務完成一切都好 2 CURLE_UNSUPPORTED_PROTOCOL 不支援的協議,由URL的頭部指定 3 CURLE_COULDNT_CONNECT 不能連線到remote 主機或者代理 4 CURLE_REMOTE_ACCESS_DENIED 訪問被拒絕 5 CURLE_HTTP_RETURNED_ERROR Http返回錯誤 6 CURLE_READ_ERROR 讀本地檔案錯誤

要獲取詳細的錯誤描述字串,可以通過const char *curl_easy_strerror(CURLcode errornum ) 這個函式取得.

五、libcurl使用的HTTP訊息頭 當使用libcurl傳送http請求時,它會自動新增一些http頭。我們可以通過CURLOPT_HTTPHEADER屬性手動替換、新增或刪除相應 的HTTP訊息頭。 Host http1.1(大部分http1.0)版本都要求客戶端請求提供這個資訊頭。 Pragma "no-cache"。表示不要緩衝資料。 Accept "*/*"。表示允許接收任何型別的資料。 Expect 以POST的方式向HTTP伺服器提交請求時,libcurl會設定該訊息頭為"100-continue",它要求伺服器在正式處理該請求之前,返回一 個"OK"訊息。如果POST的資料很小,libcurl可能不會設定該訊息頭。 自定義選項 當前越來越多的協議都構建在HTTP協議之上(如:soap),這主要歸功於HTTP的可靠性,以及被廣泛使用的代理支援(可以穿透大部分防火牆)。 這些協議的使用方式與傳統HTTP可能有很大的不同。對此,libcurl作了很好的支援。 自定義請求方式(CustomRequest) HTTP支援GET, HEAD或者POST提交請求。可以設定CURLOPT_CUSTOMREQUEST來設定自定義的請求方式,libcurl預設以GET方式提交請求: curl_easy_setopt(easy_handle, CURLOPT_CUSTOMREQUEST, "MYOWNREQUEST"); 修改訊息頭 HTTP協議提供了訊息頭,請求訊息頭用於告訴伺服器如何處理請求;響應訊息頭則告訴瀏覽器如何處理接收到的資料。在libcurl中,你可以自由的新增 這些訊息頭:

六、獲取http應答頭資訊

發出http請求後,伺服器會返回應答頭資訊和應答資料,如果僅僅是列印應答頭的所有內容,則直接可以通過curl_easy_setopt(curl, CURLOPT_HEADERFUNCTION, 列印函式)的方式來完成,這裡需要獲取的是應答頭中特定的資訊,比如應答碼、cookies列表等,則需要通過下面這個函式: CURLcode curl_easy_getinfo(CURL *curl, CURLINFO info, ... ); info引數就是我們需要獲取的內容,下面是一些引數值: 1.CURLINFO_RESPONSE_CODE 獲取應答碼 2.CURLINFO_HEADER_SIZE 頭大小 3.CURLINFO_COOKIELIST cookies列表

除了獲取應答資訊外,這個函式還能獲取curl的一些內部資訊,如請求時間、連線時間等等。

更多的引數可以參考API文件。

七、多執行緒問題 首先一個基本原則就是:絕對不應該線上程之間共享同一個libcurl handle(CURL *物件),不管是easy handle還是multi handle(本文只介紹easy_handle)。一個執行緒每次只能使用一個handle。 libcurl是執行緒安全的,但有兩點例外:訊號(signals)和SSL/TLS handler。 訊號用於超時失效名字解析(timing out name resolves)。libcurl依賴其他的庫來支援SSL/STL,所以用多執行緒的方式訪問HTTPS或FTPS的URL時,應該滿足這些庫對多執行緒 操作的一些要求。詳細可以參考: OpenSSL: http://www.openssl.org/docs/crypto/threads.html#DESCRIPTION

GnuTLS: http://www.gnu.org/software/gnutls/manual/html_node/Multi_002dthreaded-applications.html

NSS: 宣稱是多執行緒安全的。

八、什麼時候libcurl無法正常工作 傳輸失敗總是有原因的。你可能錯誤的設定了一些libcurl的屬性或者沒有正確的理解某些屬性的含義,或者是遠端主機返回一些無法被正確解析的內容。 這裡有一個黃金法則來處理這些問題:將CURLOPT_VERBOSE屬性設定為1,libcurl會輸出通訊過程中的一些細節。如果使用的是http協 議,請求頭/響應頭也會被輸出。將CURLOPT_HEADER設為1,這些頭資訊將出現在訊息的內容中。 當然不可否認的是,libcurl還存在bug。 如果你對相關的協議瞭解越多,在使用libcurl時,就越不容易犯錯。

九、關於密碼 客戶端向伺服器傳送請求時,許多協議都要求提供使用者名稱與密碼。libcurl提供了多種方式來設定它們。 一些協議支援在URL中直接指定使用者名稱和密碼,類似於: protocol://user:[email protected]/path/。libcurl能正確的識別這種URL中的使用者名稱與密碼並執行 相應的操作。如果你提供的使用者名稱和密碼中有特殊字元,首先應該對其進行URL編碼。 也可以通過CURLOPT_USERPWD屬性來設定使用者名稱與密碼。引數是格式如 “user:password ”的字串: curl_easy_setopt(easy_handle, CURLOPT_USERPWD, "user_name:password"); 有時候在訪問代理伺服器的時候,可能時時要求提供使用者名稱和密碼進行使用者身份驗證。這種情況下,libcurl提供了另 一個屬性CURLOPT_PROXYUSERPWD: curl_easy_setopt(easy_handle, CURLOPT_PROXYUSERPWD, "user_name:password"); 在UNIX平臺下,訪問FTP的使用者名稱和密碼可能會被儲存在$HOME/.netrc檔案中。libcurl支援直接從這個檔案中獲取使用者名稱與密碼: curl_easy_setopt(easy_handle, CURLOPT_NETRC, 1L); 在使用SSL時,可能需要提供一個私鑰用於資料安全傳輸,通過CURLOPT_KEYPASSWD來設定私鑰: curl_easy_setopt(easy_handle, CURLOPT_KEYPASSWD, "keypassword");

十、HTTP驗證 在使用HTTP協議時,客戶端有很多種方式向伺服器提供驗證資訊。預設的 HTTP驗證方法是"Basic”,它將使用者名稱與密碼以明文的方式、經Base64編碼後儲存在HTTP請求頭中,發往伺服器。當然這不太安全。 當前版本的libcurl支援的驗證方法有:basic, Digest, NTLM, Negotiate, GSS-Negotiate and SPNEGO。(譯者感嘆:搞Web這麼多年,盡然不知道這些Http的驗證方式,實在慚愧。)可以通過CURLOPT_HTTPAUTH屬性來設定具體 的驗證方式: curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST); 向代理伺服器傳送驗證資訊時,可以通過CURLOPT_PROXYAUTH設定驗證方式: curl_easy_setopt(easy_handle, CURLOPT_PROXYAUTH, CURLAUTH_NTLM); 也可以同時設定多種驗證方式(通過按位與), 使用‘CURLAUTH_ANY‘將允許libcurl可以選擇任何它所支援的驗證方式。通過CURLOPT_HTTPAUTH或 CURLOPT_PROXYAUTH屬性設定的多種驗證方式,libcurl會在執行時選擇一種它認為是最好的方式與伺服器通訊: curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST|CURLAUTH_BASIC); // curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

十一、程式碼示例

下載的libcurl中自帶了很多示例程式碼,在docsexamples目錄下,建議下載該庫後好好閱讀一下這些程式碼。

libcurl的API文件在docslibcurlindex.html中。

1.基本的http GET/POST操作

編譯gcc get_post.c -o get_post –lcurl

./ get_post

編譯gcc get_http.c -o get_http –lcurl

./ get_http www.baidu.com