1. 程式人生 > 實用技巧 >curl庫

curl庫

一、Curl基本程式設計框架

curl是Linux下一個非常著名的下載庫,通過這個庫,可以很簡單的實現檔案的下載等操作。支援http, https, ftp, gopher, telnet, dict, file, 和ldap 協議。libcurl同樣支援HTTPS證書授權,HTTP POST, HTTP PUT, FTP 上傳, HTTP基本表單上傳,代理,cookies,和使用者認證。想要知道更多關於libcurl的介紹,可以到官網http://curl.haxx.se/上去了解。

在基於LibCurl的程式裡,主要採用callback function (回撥函式)的形式完成傳輸任務,使用者在啟動傳輸前設定好各類引數和回撥函式,當滿足條件時libcurl將呼叫使用者的回撥函式實現特定功能。下面是利用libcurl完成傳輸任務的流程:
1. 呼叫curl_global_init()初始化libcurl
2. 呼叫curl_easy_init()函式得到 easy interface型指標
3. 呼叫curl_easy_setopt()設定傳輸選項
4. 根據curl_easy_setopt()設定的傳輸選項,實現回撥函式以完成使用者特定任務
5. 呼叫curl_easy_perform()函式完成傳輸任務
6. 呼叫curl_easy_cleanup()釋放記憶體
在整過過程中設定curl_easy_setopt()引數是最關鍵的,幾乎所有的libcurl程式都要使用它。
二、一些基本的函式
1.CURLcode curl_global_init(long flags);

描述:
這個函式只能用一次。(其實在呼叫curl_global_cleanup 函式後仍然可再用)
如果這個函式在curl_easy_init函式呼叫時還沒呼叫,它講由libcurl庫自動呼叫,所以多執行緒下最好主動呼叫該函式以防止線上程中curl_easy_init時多次呼叫。 注意:雖然libcurl是執行緒安全的,但curl_global_init是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。
引數:flags
CURL_GLOBAL_ALL //初始化所有的可能的呼叫。
CURL_GLOBAL_SSL //初始化支援 安全套接字層。

CURL_GLOBAL_WIN32 //初始化win32套接字型檔。
CURL_GLOBAL_NOTHING //沒有額外的初始化。
2 void curl_global_cleanup(void);
描述:在結束libcurl使用的時候,用來對curl_global_init做的工作清理。類似於close的函式。 注意:雖然libcurl是執行緒安全的,但curl_global_cleanup是不能保證執行緒安全的,所以不要在每個執行緒中都呼叫curl_global_init,應該將該函式的呼叫放在主執行緒中。
3 char *curl_version( );
描述: 列印當前libcurl庫的版本。
4 CURL *curl_easy_init( );
描述:
curl_easy_init用來初始化一個CURL的指標(有些像返回FILE型別的指標一樣). 相應的在呼叫結束時要用curl_easy_cleanup函式清理.
一般curl_easy_init意味著一個會話的開始. 它會返回一個easy_handle(CURL*物件), 一般都用在easy系列的函式中.
5 void curl_easy_cleanup(CURL *handle);
描述:
這個呼叫用來結束一個會話.與curl_easy_init配合著用.
引數:
CURL型別的指標.
6 CURLcode curl_easy_setopt(CURL *handle, CURLoption option, parameter);
描述: 這個函式最重要了.幾乎所有的curl 程式都要頻繁的使用它.它告訴curl庫.程式將有如何的行為. 比如要檢視一個網頁的html程式碼等.(這個函式有些像ioctl函式)引數:
1 CURL型別的指標
2 各種CURLoption型別的選項.(都在curl.h庫裡有定義,man 也可以檢視到)
3 parameter 這個引數 既可以是個函式的指標,也可以是某個物件的指標,也可以是個long型的變數.它用什麼這取決於第二個引數.
CURLoption 這個引數的取值很多.具體的可以檢視man手冊.
7 CURLcode curl_easy_perform(CURL *handle); 描述:這個函式在初始化CURL型別的指標 以及curl_easy_setopt完成後呼叫. 就像字面的意思所說perform就像是個舞臺.讓我們設定的
option 運作起來.引數:
CURL型別的指標.
三、curl_easy_setopt函式部分選項介紹
本節主要介紹curl_easy_setopt中跟http相關的引數。該函式是curl中非常重要的函式,curl所有設定都是在該函式中完成的,該函式的設定選項眾多,注意本節的闡述的只是部分常見選項。 1. CURLOPT_URL
設定訪問URL
2. CURLOPT_WRITEFUNCTIONCURLOPT_WRITEDATA
回撥函式原型為:size_t function( void *ptr, size_t size, size_t nmemb, void *stream);函式將在libcurl接收到資料後被呼叫,因此函式多做資料儲存的功能,如處理下載檔案。CURLOPT_WRITEDATA 用於表明CURLOPT_WRITEFUNCTION函式中的stream指標的來源。 如果你沒有通過CURLOPT_WRITEFUNCTION屬性給easy handle設定回撥函式,libcurl會提供一個預設的回撥函式,它只是簡單的將接收到的資料列印到標準輸出。你也可以通過 CURLOPT_WRITEDATA屬性給預設回撥函式傳遞一個已經開啟的檔案指標,用於將資料輸出到檔案裡。
3. CURLOPT_HEADERFUNCTIONCURLOPT_HEADERDATA
回撥函式原型為 size_t function( void *ptr, size_t size,size_t nmemb, void *stream); libcurl一旦接收到http 頭部資料後將呼叫該函式。CURLOPT_WRITEDATA 傳遞指標給libcurl,該指標表明CURLOPT_HEADERFUNCTION 函式的stream指標的來源。
4. CURLOPT_READFUNCTION CURLOPT_READDATA
libCurl需要讀取資料傳遞給遠端主機時將呼叫CURLOPT_READFUNCTION指定的函式,函式原型是:size_t function(void *ptr, size_t size, size_t nmemb,void *stream). CURLOPT_READDATA 表明CURLOPT_READFUNCTION函式原型中的stream指標來源。
5. CURLOPT_NOPROGRESSCURLOPT_PROGRESSFUNCTIONCURLOPT_PROGRESSDATA
跟資料傳輸進度相關的引數。CURLOPT_PROGRESSFUNCTION 指定的函式正常情況下每秒被libcurl呼叫一次,為了使CURLOPT_PROGRESSFUNCTION被呼叫,CURLOPT_NOPROGRESS必須被設定為false,CURLOPT_PROGRESSDATA指定的引數將作為CURLOPT_PROGRESSFUNCTION指定函式的第一個引數
6. CURLOPT_TIMEOUTCURLOPT_CONNECTIONTIMEOUT:
CURLOPT_TIMEOUT 由於設定傳輸時間,CURLOPT_CONNECTIONTIMEOUT 設定連線等待時間
7. CURLOPT_FOLLOWLOCATION
設定重定位URL
8. CURLOPT_RANGE: CURLOPT_RESUME_FROM:
斷點續傳相關設定。CURLOPT_RANGE 指定char *引數傳遞給libcurl,用於指明http域的RANGE頭域,例如:
表示頭500個位元組:bytes=0-499
表示第二個500位元組:bytes=500-999
表示最後500個位元組:bytes=-500
表示500位元組以後的範圍:bytes=500-
第一個和最後一個位元組:bytes=0-0,-1
同時指定幾個範圍:bytes=500-600,601-999
CURLOPT_RESUME_FROM 傳遞一個long引數給libcurl,指定你希望開始傳遞的偏移量。
四、curl_easy_perform函式說明(error 狀態碼)
該函式是完成curl_easy_setopt指定的所有選項,本節重點介紹curl_easy_perform的返回值。返回0意味一切ok,非0代表錯誤發生。主要錯誤碼說明:
1. CURLE_OK
任務完成一切都好
2 CURLE_UNSUPPORTED_PROTOCOL
不支援的協議,由URL的頭部指定
3 CURLE_COULDNT_CONNECT
不能連線到remote 主機或者代理
4 CURLE_REMOTE_ACCESS_DENIED
訪問被拒絕
5 CURLE_HTTP_RETURNED_ERROR
Http返回錯誤
6 CURLE_READ_ERROR
讀本地檔案錯誤 要獲取詳細的錯誤描述字串,可以通過const char *curl_easy_strerror(CURLcode errornum )這個函式取得.

五、libcurl使用的HTTP訊息頭
當使用libcurl傳送http請求時,它會自動新增一些http頭。我們可以通過CURLOPT_HTTPHEADER屬性手動替換、新增或刪除相應 的HTTP訊息頭。
Host
http1.1(大部分http1.0)版本都要求客戶端請求提供這個資訊頭。
Pragma
"no-cache"。表示不要緩衝資料。
Accept
"*/*"。表示允許接收任何型別的資料。
Expect
以POST的方式向HTTP伺服器提交請求時,libcurl會設定該訊息頭為"100-continue",它要求伺服器在正式處理該請求之前,返回一 個"OK"訊息。如果POST的資料很小,libcurl可能不會設定該訊息頭。
自定義選項
當前越來越多的協議都構建在HTTP協議之上(如:soap),這主要歸功於HTTP的可靠性,以及被廣泛使用的代理支援(可以穿透大部分防火牆)。 這些協議的使用方式與傳統HTTP可能有很大的不同。對此,libcurl作了很好的支援。
自定義請求方式(CustomRequest)
HTTP支援GET, HEAD或者POST提交請求。可以設定CURLOPT_CUSTOMREQUEST來設定自定義的請求方式,libcurl預設以GET方式提交請求:
curl_easy_setopt(easy_handle, CURLOPT_CUSTOMREQUEST, "MYOWNREQUEST");

修改訊息頭
HTTP協議提供了訊息頭,請求訊息頭用於告訴伺服器如何處理請求;響應訊息頭則告訴瀏覽器如何處理接收到的資料。在libcurl中,你可以自由的新增 這些訊息頭:

struct curl_slist *headers=NULL; /* init to NULL is important */
headers = curl_slist_append(headers, "Hey-server-hey: how are you?");
headers = curl_slist_append(headers, "X-silly-content: yes");
/* pass our list of custom made headers */
curl_easy_setopt(easyhandle, CURLOPT_HTTPHEADER, headers);
curl_easy_perform(easyhandle); /* transfer http */
curl_slist_free_all(headers); /* free the header list */

對於已經存在的訊息頭,可以重新設定它的值:

headers = curl_slist_append(headers, "Accept: Agent-007"); 
headers = curl_slist_append(headers, "Host: munged.host.line"); 

刪除訊息頭
對於一個已經存在的訊息頭,設定它的內容為空,libcurl在傳送請求時就不會同時提交該訊息頭:

headers = curl_slist_append(headers, "Accept:");

六、獲取http應答頭資訊

發出http請求後,伺服器會返回應答頭資訊和應答資料,如果僅僅是列印應答頭的所有內容,則直接可以通過curl_easy_setopt(curl, CURLOPT_HEADERFUNCTION, 列印函式)的方式來完成,這裡需要獲取的是應答頭中特定的資訊,比如應答碼、cookies列表等,則需要通過下面這個函式:
CURLcode curl_easy_getinfo(CURL *curl, CURLINFO info, ... );
info引數就是我們需要獲取的內容,下面是一些引數值:
1.CURLINFO_RESPONSE_CODE
獲取應答碼
2.CURLINFO_HEADER_SIZE
頭大小
3.CURLINFO_COOKIELIST
cookies列表

除了獲取應答資訊外,這個函式還能獲取curl的一些內部資訊,如請求時間、連線時間等等。

更多的引數可以參考API文件。

七、多執行緒問題
首先一個基本原則就是:絕對不應該線上程之間共享同一個libcurl handle(CURL *物件),不管是easy handle還是multi handle(本文只介紹easy_handle)。一個執行緒每次只能使用一個handle。
libcurl是執行緒安全的,但有兩點例外:訊號(signals)和SSL/TLS handler。 訊號用於超時失效名字解析(timing out name resolves)。libcurl依賴其他的庫來支援SSL/STL,所以用多執行緒的方式訪問HTTPS或FTPS的URL時,應該滿足這些庫對多執行緒 操作的一些要求。詳細可以參考:
OpenSSL:http://www.openssl.org/docs/crypto/threads.html#DESCRIPTION

GnuTLS:http://www.gnu.org/software/gnutls/manual/html_node/Multi_002dthreaded-applications.html

NSS: 宣稱是多執行緒安全的。

八、什麼時候libcurl無法正常工作
傳輸失敗總是有原因的。你可能錯誤的設定了一些libcurl的屬性或者沒有正確的理解某些屬性的含義,或者是遠端主機返回一些無法被正確解析的內容。
這裡有一個黃金法則來處理這些問題:將CURLOPT_VERBOSE屬性設定為1,libcurl會輸出通訊過程中的一些細節。如果使用的是http協 議,請求頭/響應頭也會被輸出。將CURLOPT_HEADER設為1,這些頭資訊將出現在訊息的內容中。
當然不可否認的是,libcurl還存在bug。
如果你對相關的協議瞭解越多,在使用libcurl時,就越不容易犯錯。

九、關於密碼
客戶端向伺服器傳送請求時,許多協議都要求提供使用者名稱與密碼。libcurl提供了多種方式來設定它們。
一些協議支援在URL中直接指定使用者名稱和密碼,類似於: protocol://user:[email protected]/path/。libcurl能正確的識別這種URL中的使用者名稱與密碼並執行 相應的操作。如果你提供的使用者名稱和密碼中有特殊字元,首先應該對其進行URL編碼。
也可以通過CURLOPT_USERPWD屬性來設定使用者名稱與密碼。引數是格式如 “user:password ”的字串:
curl_easy_setopt(easy_handle, CURLOPT_USERPWD, "user_name:password");
有時候在訪問代理伺服器的時候,可能時時要求提供使用者名稱和密碼進行使用者身份驗證。這種情況下,libcurl提供了另 一個屬性CURLOPT_PROXYUSERPWD:
curl_easy_setopt(easy_handle, CURLOPT_PROXYUSERPWD, "user_name:password");
在UNIX平臺下,訪問FTP的使用者名稱和密碼可能會被儲存在$HOME/.netrc檔案中。libcurl支援直接從這個檔案中獲取使用者名稱與密碼:
curl_easy_setopt(easy_handle, CURLOPT_NETRC, 1L);
在使用SSL時,可能需要提供一個私鑰用於資料安全傳輸,通過CURLOPT_KEYPASSWD來設定私鑰:
curl_easy_setopt(easy_handle, CURLOPT_KEYPASSWD, "keypassword");

十、HTTP驗證
在使用HTTP協議時,客戶端有很多種方式向伺服器提供驗證資訊。預設的 HTTP驗證方法是"Basic”,它將使用者名稱與密碼以明文的方式、經Base64編碼後儲存在HTTP請求頭中,發往伺服器。當然這不太安全。
當前版本的libcurl支援的驗證方法有:basic, Digest, NTLM, Negotiate, GSS-Negotiate and SPNEGO。(譯者感嘆:搞Web這麼多年,盡然不知道這些Http的驗證方式,實在慚愧。)可以通過CURLOPT_HTTPAUTH屬性來設定具體 的驗證方式:
curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST);
向代理伺服器傳送驗證資訊時,可以通過CURLOPT_PROXYAUTH設定驗證方式:
curl_easy_setopt(easy_handle, CURLOPT_PROXYAUTH, CURLAUTH_NTLM);
也可以同時設定多種驗證方式(通過按位與), 使用‘CURLAUTH_ANY‘將允許libcurl可以選擇任何它所支援的驗證方式。通過CURLOPT_HTTPAUTH或 CURLOPT_PROXYAUTH屬性設定的多種驗證方式,libcurl會在執行時選擇一種它認為是最好的方式與伺服器通訊:
curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST|CURLAUTH_BASIC);
// curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

程式碼參考:
#include <iostream>
#include <curl/curl.h>
using namespace std;

size_t receive_data(void *buffer, size_t size, size_t nmemb, FILE *file);
int main(){
    char url[] = "http://www.sina.com.cn";
    char path[] = "save_file.txt";
    FILE *file = fopen(path,"w");
    curl_global_init(CURL_GLOBAL_ALL);
    CURL *handle = curl_easy_init();
    curl_easy_setopt(handle, CURLOPT_URL, url);
    curl_easy_setopt(handle, CURLOPT_WRITEFUNCTION, receive_data);
    curl_easy_setopt(handle, CURLOPT_WRITEDATA, file);
    cout << curl_easy_perform(handle);


    curl_easy_cleanup(handle);
    curl_global_cleanup();

    return 0;
}

size_t receive_data(void *buffer, size_t size, size_t nmemb, FILE *file){
    size_t r_size = fwrite(buffer, size, nmemb, file);
    fclose(file);
    return r_size;
}

是不是覺得完全沒有任何問題對不對,我下載了sina的html,然後儲存到save_file.txt裡。
BUT,當我開啟save_file.txt發現裡面只有不全的一段html,並沒有全部在裡面。為什麼呢?
因為curl_easy_setopt(handle, CURLOPT_WRITEFUNCTION, receive_data);這個設定的回撥函式的呼叫是在每次socket接收到資料之後,並不是socket接收了所有的資料,然後才呼叫設定的回撥函式
當socket才接收到一部分資料的時候,就呼叫了回撥函式。回撥函式將接收到的不完全資料儲存到檔案裡,然後關閉檔案。然後socket又接收到了下一部分的資料,呼叫回撥函式。但是此時檔案已經被關閉了,程式出錯,所以後續的內容不能夠被儲存到檔案中。所以看到的檔案也就是不完整的。
修改後的程式碼:

#include <iostream>
#include <curl/curl.h>
using namespace std;

size_t receive_data(void *buffer, size_t size, size_t nmemb, FILE *file);

int main() {
    char url[] = "http://www.sina.com.cn";
    char path[] = "save_file.txt";
    FILE *file = fopen(path, "w");
    curl_global_init(CURL_GLOBAL_ALL);
    CURL *handle = curl_easy_init();
    curl_easy_setopt(handle, CURLOPT_URL, url);
    curl_easy_setopt(handle, CURLOPT_WRITEFUNCTION, receive_data);
    curl_easy_setopt(handle, CURLOPT_WRITEDATA, file);
    cout << curl_easy_perform(handle);

    fclose(file);
    curl_easy_cleanup(handle);
    curl_global_cleanup();
    return 0;
}

size_t receive_data(void *buffer, size_t size, size_t nmemb, FILE *file) {
    size_t r_size = fwrite(buffer, size, nmemb, file);
    return r_size;
}

參考:https://www.cnblogs.com/moodlxs/archive/2012/10/15/2724318.html