Http 下載檔案,指定下載位置
HTTP協議簡介
下載檔案是電腦與WEB伺服器互動的過程,它們互動的"語言"的專業名稱是協議。傳送檔案的協議有多種,最常用的是HTTP(超文字傳輸協議)和FTP(檔案傳送協議),我採用的是HTTP。
HTTP協議最基本的命令只有三條:Get、Post和Head。Get從WEB伺服器請求一個特定的物件,比如HTML頁面或者一個檔案,WEB 伺服器通過一個Socket連線傳送此物件作為響應;Head命令使伺服器給出此物件的基本描述,比如物件的型別、大小和更新時間。Post命令用於向 WEB伺服器傳送資料,通常使把資訊傳送給一個單獨的應用程式,經處理生成動態的結果返回給瀏覽器。下載即是通過Get命令實現。
基本的下載過程
編寫下載程式,可以直接使用Socket函式,但是這要求開發人員理解、熟悉TCP/IP協議。為了簡化Internet客戶端軟體的開 發,Windows提供了一套WinInet API,對常用的網路協議進行了封裝,把開發Internet軟體的門檻大大降低了。我們需要使用的WinInet API函式如圖1所示,呼叫順序基本上是從上到下,其具體的函式原型請參考MSDN。
圖1
在使用這些函式時,必須嚴格區分它們使用的控制代碼。這些控制代碼的型別是一樣的,都是HINTERNET,但是作用不同,這一點非常讓人迷惑。按照這些控制代碼的產生順序和呼叫關係,可以分為三個級別,下一級的控制代碼由上一級的控制代碼得到。
InternetOpen是最先呼叫的函式,它返回的HINTERNET控制代碼級別最高,我習慣定義為hSession,即會話控制代碼。
InternetConnect使用hSession控制代碼,返回的是http連線控制代碼,我把它定義為hConnect。
HttpOpenRequest使用hConnect控制代碼,返回的控制代碼是http請求控制代碼,定義為hRequest。
HttpSendRequest、HttpQueryInfo、InternetSetFilePointer和InternetReadFile都使用HttpOpenRequest返回的控制代碼,即hRequest。
當這幾個控制代碼不再使用是,應該用函式InternetCloseHandle把它關閉,以釋放其佔用的資源。
#include <iostream>
#include <fstream>
#include <Windows.h>
#include <wininet.h>
#include <string>
#include <io.h>
#include <map>
#include <vector>
#include <ctype.h>
#include <stdlib.h>
#include <time.h>
#define MAXBLOCKSIZE 1024
clock_t clockBegin, clockEnd;
#pragma comment (lib, "wininet.lib")
using namespace std;
LPCWSTR StringToLPCWSTR(string srcStr)
{
size_t origsize = srcStr.length() + 1;
const size_t newsize = 100;
size_t convertedChars = 0;
wchar_t *wcstring = (wchar_t *)malloc(sizeof(wchar_t)*(srcStr.length()-1));
mbstowcs_s(&convertedChars, wcstring, origsize, srcStr.c_str(), _TRUNCATE);
return wcstring;
}
DWORD GetHtml()
{
//LPCTSTR lpszAgent = L"Dalvik/1.4.0 (Linux; U; Android 2.3.3; HTC Glacier Build/GRI40) Digua/4.6";
HINTERNET hInternet = InternetOpen("GetTest",INTERNET_OPEN_TYPE_PRECONFIG,NULL,NULL,0);
if (!hInternet)
{
throw "failed to init network";
}
HINTERNET hConnection = InternetConnect(hInternet,"package6.kuaiapp.cn",INTERNET_DEFAULT_HTTP_PORT,NULL,NULL,INTERNET_SERVICE_HTTP,0,0);
if (!hConnection)
{
throw "failed to connect to the host";
}
const char *FAcceptTypes = "*/*";
HINTERNET hRequest = HttpOpenRequest(hConnection,"GET","/201407/26/6002_887171753_1.0.0_5.0.ipa","HTTP/1.1",NULL,&FAcceptTypes,INTERNET_FLAG_RELOAD,0);
if (!hRequest)
{
throw "failed to open the request";
}
bool x = HttpAddRequestHeadersA(hRequest,"Range:bytes=10000000-",strlen("Range:bytes=10000000-"),0);
BOOL bSuccess = HttpSendRequest(hRequest,NULL,0,NULL,0);
if(!bSuccess)
{
GetLastError();
throw "failed to send the request";
}
DWORD dwContentLength;
DWORD dwLengthSize = sizeof(dwContentLength);
HttpQueryInfo(hRequest, HTTP_QUERY_CONTENT_LENGTH, &dwContentLength, &dwLengthSize, NULL);
DWORD dwIndex=0;
char Buffer[1024];
DWORD BufLen = 1024;
bool RetQueryInfo=HttpQueryInfo(hRequest,
HTTP_QUERY_CONTENT_LENGTH,
Buffer, &BufLen,
&dwIndex);
int FileSize=atoi(Buffer);
cout << "File size: " << FileSize << endl;
char szBuffer[16384];
memset(szBuffer,0,16384);
DWORD dwRead = 0;
DWORD byteDown = 0;
int a = 0;
cout << "已下載:" << a << "%";
BOOL hwrite;
HANDLE createFile;
DWORD written;
createFile = CreateFileA("C://download.ipa", GENERIC_WRITE|GENERIC_READ, 0, 0, CREATE_ALWAYS, FILE_ATTRIBUTE_NORMAL, 0);
if (createFile == INVALID_HANDLE_VALUE)
{
cout << "Create file failed!" << endl;
//InternetCloseHandle(internetOpenUrl);
return NULL;
}
while (1)
{
BOOL bRead = InternetReadFile(hRequest,szBuffer,16384,&dwRead);
////cout<<"szBuff: "<<szBuffer<<endl;
if (!bRead)
{
throw "failed to receive date";
}
if (dwRead == 0)
{
break;
}
byteDown += dwRead;
cout << "/b";
//SetFilePointer(createFile, a, NULL, FILE_BEGIN);
hwrite = WriteFile(createFile, szBuffer, sizeof(szBuffer), &written, NULL);
if (hwrite == 0)
{
cout << "Write to file failed!" << endl;
CloseHandle(createFile);
return 0;
}
//FlushFileBuffers(createFile);
}
int len = MultiByteToWideChar(CP_ACP,0,szBuffer,-1,NULL,0);
wchar_t *pwstr = new wchar_t[len];
MultiByteToWideChar(CP_ACP,0,szBuffer,-1,pwstr,len);
InternetCloseHandle(hRequest);
InternetCloseHandle(hConnection);
InternetCloseHandle(hInternet);
return 1;
}
int main()
{
clockBegin = clock();
GetHtml();
clockEnd = clock();
printf("//下載用時總計(ms):%d\n", clockEnd - clockBegin);
return 1;
}
以下為轉載。轉載地址。原地址。。以便為了以後方便看。
首先建立一個名為THttpGetThread、建立後自動掛起的執行緒模組,我希望執行緒在完成後自動銷燬,所以在建構函式中設定:
FreeOnTerminate = True; // 自動刪除
並增加以下成員變數:
char Buffer[HTTPGET_BUFFER_MAX+4]; // 資料緩衝區
AnsiString FURL; // 下載物件的URL
AnsiString FOutFileName; // 儲存的路徑和名稱
HINTERNET FhSession; // 會話控制代碼
HINTERNET FhConnect; // http連線控制代碼
HINTERNET FhRequest; // http請求控制代碼
bool FSuccess; // 下載是否成功
int iFileHandle; // 輸出檔案的控制代碼
1、建立連線
按照功能劃分,下載過程可以分為4部分,即建立連線、讀取待下載檔案的資訊並分析、下載檔案和釋放佔用的資源。建立連線的函式如下,其中ParseURL的作用是從下載URL地址中取得主機名稱和下載的檔案的WEB路徑,DoOnStatusText用於輸出當前的狀態:
//初始化下載環境
void THttpGetThread::StartHttpGet(void)
{
AnsiString HostName,FileName;
ParseURL(HostName, FileName);
try
{
// 1.建立會話
FhSession = InternetOpen("http-get-demo",
INTERNET_OPEN_TYPE_PRECONFIG,
NULL,NULL,
0); // 同步方式
if( FhSession==NULL)throw(Exception("Error:InterOpen"));
DoOnStatusText("ok:InterOpen");
// 2.建立連線
FhConnect=InternetConnect(FhSession,
HostName.c_str(),
INTERNET_DEFAULT_HTTP_PORT,
NULL,NULL,
INTERNET_SERVICE_HTTP, 0, 0);
if(FhConnect==NULL)throw(Exception("Error:InternetConnect"));
DoOnStatusText("ok:InternetConnect");
// 3.初始化下載請求
const char *FAcceptTypes = "*/*";
FhRequest = HttpOpenRequest(FhConnect,
"GET", // 從伺服器獲取資料
FileName.c_str(), // 想讀取的檔案的名稱
"HTTP/1.1", // 使用的協議
NULL,
&FAcceptTypes,
INTERNET_FLAG_RELOAD,
0);
if( FhRequest==NULL)throw(Exception("Error:HttpOpenRequest"));
DoOnStatusText("ok:HttpOpenRequest");
// 4.傳送下載請求
HttpSendRequest(FhRequest, NULL, 0, NULL, 0);
DoOnStatusText("ok:HttpSendRequest");
}catch(Exception &exception)
{
EndHttpGet(); // 關閉連線,釋放資源
DoOnStatusText(exception.Message);
}
}
// 從URL中提取主機名稱和下載檔案路徑
void THttpGetThread::ParseURL(AnsiString &HostName,AnsiString &FileName)
{
AnsiString URL=FURL;
int i=URL.Pos("http://");
if(i>0)
{
URL.Delete(1, 7);
}
i=URL.Pos("/");
HostName = URL.SubString(1, i-1);
FileName = URL.SubString(i, URL.Length());
}
可以看到,程式按照圖1中的順序,依次呼叫InternetOpen、InternetConnect、HttpOpenRequest函式得到3個相關的控制代碼,然後通過HttpSendRequest函式把下載的請求傳送給WEB伺服器。
InternetOpen的第一個引數是無關的,最後一個引數如果設定為INTERNET_FLAG_ASYNC,則將建立非同步連線,這很有實際意義,考慮到本文的複雜程度,我沒有采用。但是對於需要更高下載要求的讀者,強烈建議採用非同步方式。
HttpOpenRequest開啟一個請求控制代碼,命令是"GET",表示下載檔案,使用的協議是"HTTP/1.1"。
另外一個需要注意的地方是HttpOpenRequest的引數FAcceptTypes,表示可以開啟的檔案型別,我設定為"*/*"表示可以開啟所有檔案型別,可以根據實際需要改變它的值。
2、讀取待下載的檔案的資訊並分析
在傳送請求後,可以使用HttpQueryInfo函式獲取檔案的有關資訊,或者取得伺服器的資訊以及伺服器支援的相關操作。對於下載程式,最常用的是傳遞HTTP_QUERY_CONTENT_LENGTH引數取得檔案的大小,即檔案包含的位元組數。模組如下所示:
// 取得待下載檔案的大小
int __fastcall THttpGetThread::GetWEBFileSize(void)
{
try
{
DWORD BufLen=HTTPGET_BUFFER_MAX;
DWORD dwIndex=0;
bool RetQueryInfo=HttpQueryInfo(FhRequest,
HTTP_QUERY_CONTENT_LENGTH,
Buffer, &BufLen,
&dwIndex);
if( RetQueryInfo==false) throw(Exception("Error:HttpQueryInfo"));
DoOnStatusText("ok:HttpQueryInfo");
int FileSize=StrToInt(Buffer); // 檔案大小
DoOnGetFileSize(FileSize);
}catch(Exception &exception)
{
DoOnStatusText(exception.Message);
}
return FileSize;
}
模組中的DoOnGetFileSize是發出取得檔案大小的事件。取得檔案大小後,對於採用多執行緒的下載程式,可以按照這個值進行合適的檔案分塊,確定每個檔案塊的起點和大小。
3、下載檔案的模組
開始下載前,還應該先安排好怎樣儲存下載結果。方法很多,我直接採用了C++ Builder提供的檔案函式開啟一個檔案控制代碼。當然,也可以採用Windows本身的API,對於小檔案,全部緩衝到記憶體中也可以考慮。
// 開啟輸出檔案,以儲存下載的資料
DWORD THttpGetThread::OpenOutFile(void)
{
try
{
if(FileExists(FOutFileName))
DeleteFile(FOutFileName);
iFileHandle=FileCreate(FOutFileName);
if(iFileHandle==-1) throw(Exception("Error:FileCreate"));
DoOnStatusText("ok:CreateFile");
}catch(Exception &exception)
{
DoOnStatusText(exception.Message);
}
return 0;
}
// 執行下載過程
void THttpGetThread::DoHttpGet(void)
{
DWORD dwCount=OpenOutFile();
try
{
// 發出開始下載事件
DoOnStatusText("StartGet:InternetReadFile");
// 讀取資料
DWORD dwRequest; // 請求下載的位元組數
DWORD dwRead; // 實際讀出的位元組數
dwRequest=HTTPGET_BUFFER_MAX;
while(true)
{
Application->ProcessMessages();
bool ReadReturn = InternetReadFile(FhRequest,
(LPVOID)Buffer,
dwRequest,
&dwRead);
if(!ReadReturn)break;
if(dwRead==0)break;
// 儲存資料
Buffer[dwRead]='';
FileWrite(iFileHandle, Buffer, dwRead);
dwCount = dwCount + dwRead;
// 發出下載程序事件
DoOnProgress(dwCount);
}
Fsuccess=true;
}catch(Exception &exception)
{
Fsuccess=false;
DoOnStatusText(exception.Message);
}
FileClose(iFileHandle);
DoOnStatusText("End:InternetReadFile");
}
下載過程並不複雜,與讀取本地檔案一樣,執行一個簡單的迴圈。當然,如此方便的程式設計還是得益於微軟對網路協議的封裝。
4、釋放佔用的資源
這個過程很簡單,按照產生各個控制代碼的相反的順序呼叫InternetCloseHandle函式即可。
void THttpGetThread::EndHttpGet(void)
{
if(FConnected)
{
DoOnStatusText("Closing:InternetConnect");
try
{
InternetCloseHandle(FhRequest);
InternetCloseHandle(FhConnect);
InternetCloseHandle(FhSession);
}catch(...){}
FhSession=NULL;
FhConnect=NULL;
FhRequest=NULL;
FConnected=false;
DoOnStatusText("Closed:InternetConnect");
}
}
我覺得,在釋放控制代碼後,把變數設定為NULL是一種良好的程式設計習慣。在這個示例中,還出於如果下載失敗,重新進行下載時需要再次利用這些控制代碼變數的考慮。
5、功能模組的呼叫
這些模組的呼叫可以安排線上程物件的Execute方法中,如下所示:
void __fastcall THttpGetThread::Execute()
{
FrepeatCount=5;
for(int i=0;i<FRepeatCount;i++)
{
StartHttpGet();
GetWEBFileSize();
DoHttpGet();
EndHttpGet();
if(FSuccess)break;
}
// 發出下載完成事件
if(FSuccess)DoOnComplete();
else DoOnError();
}
這裡執行了一個迴圈,即如果產生了錯誤自動重新進行下載,實際程式設計中,重複次數可以作為引數自行設定。
實現斷點續傳功能
在基本下載的程式碼上實現斷點續傳功能並不是很複雜,主要的問題有兩點:
1、 檢查本地的下載資訊,確定已經下載的位元組數。所以應該對開啟輸出檔案的函式作適當修改。我們可以建立一個輔助檔案儲存下載的資訊,如已經下載的位元組數等。我處理得較為簡單,先檢查輸出檔案是否存在,如果存在,再得到其大小,並以此作為已經下載的部分。由於Windows沒有直接取得檔案大小的API,我編寫了GetFileSize函式用於取得檔案大小。注意,與前面相同的程式碼被省略了。
DWORD THttpGetThread::OpenOutFile(void)
{
……
if(FileExists(FOutFileName))
{
DWORD dwCount=GetFileSize(FOutFileName);
if(dwCount>0)
{
iFileHandle=FileOpen(FOutFileName,fmOpenWrite);
FileSeek(iFileHandle,0,2); // 移動檔案指標到末尾
if(iFileHandle==-1) throw(Exception("Error:FileCreate"));
DoOnStatusText("ok:OpenFile");
return dwCount;
}
DeleteFile(FOutFileName);
}
……
}
2、 在開始下載檔案(即執行InternetReadFile函式)之前,先調整WEB上的檔案指標。這就要求WEB伺服器支援隨機讀取檔案的操作,有些伺服器對此作了限制,所以應該判斷這種可能性。對DoHttpGet模組的修改如下,同樣省略了相同的程式碼:
void THttpGetThread::DoHttpGet(void)
{
DWORD dwCount=OpenOutFile();
if(dwCount>0) // 調整檔案指標
{
dwStart = dwStart + dwCount;
if(!SetFilePointer()) // 伺服器不支援操作
{
// 清除輸出檔案
FileSeek(iFileHandle,0,0); // 移動檔案指標到頭部
}
}
……
}
多執行緒下載
要實現多執行緒下載,最主要的問題是下載執行緒的建立和管理,已經下載完成後檔案的各個部分的準確合併,同時,下載執行緒也要作必要的修改。
1、下載執行緒的修改
為了適應多執行緒程式,我在下載執行緒加入如下成員變數:
int FIndex; // 線上程陣列中的索引
DWORD dwStart; // 下載開始的位置
DWORD dwTotal; // 需要下載的位元組數
DWORD FGetBytes; // 下載的總位元組數
並加入如下屬性值:
__property AnsiString URL = { read=FURL, write=FURL };
__property AnsiString OutFileName = { read=FOutFileName, write=FOutFileName};
__property bool Successed = { read=FSuccess};
__property int Index = { read=FIndex, write=FIndex};
__property DWORD StartPostion = { read=dwStart, write=dwStart};
__property DWORD GetBytes = { read=dwTotal, write=dwTotal};
__property TOnHttpCompelete OnComplete = { read=FOnComplete, write=FOnComplete };
同時,在下載過程DoHttpGet中增加如下處理,
void THttpGetThread::DoHttpGet(void)
{
……
try
{
……
while(true)
{
Application->ProcessMessages();
// 修正需要下載的位元組數,使得dwRequest + dwCount <dwTotal;
if(dwTotal>0) // dwTotal=0表示下載到檔案結束
{
if(dwRequest+dwCount>dwTotal)
dwRequest=dwTotal-dwCount;
}
……
if(dwTotal>0) // dwTotal <=0表示下載到檔案結束
{
if(dwCount>=dwTotal)break;
}
}
}
……
if(dwCount==dwTotal)FSuccess=true;
}
2、建立多執行緒下載元件
我先建立了以TComponent為基類、名為THttpGetEx的元件模組,並增加以下成員變數:
// 內部變數
THttpGetThread **HttpThreads; // 儲存建立的執行緒
AnsiString *OutTmpFiles; // 儲存結果檔案各個部分的臨時檔案
bool *FSuccesss; // 儲存各個執行緒的下載結果
// 以下是屬性變數
int FHttpThreadCount; // 使用的執行緒個數
AnsiString FURL;
AnsiString FOutFileName;
各個變數的用途都如程式碼註釋,其中的FSuccess的作用比較特別,下文會再加以詳細解釋。因為執行緒的執行具有不可逆性,而元件可能會連續地下載不同的檔案,所以下載執行緒只能動態建立,使用後隨即銷燬。建立執行緒的模組如下,其中GetSystemTemp函式取得系統的臨時資料夾,OnThreadComplete是執行緒下載完成後的事件,其程式碼在其後介紹:
// 分配資源
void THttpGetEx::AssignResource(void)
{
FSuccesss=new bool[FHttpThreadCount];
for(int i=0;i<FHttpThreadCount;i++)
FSuccesss[i]=false;
OutTmpFiles = new AnsiString[FHttpThreadCount];
AnsiString ShortName=ExtractFileName(FOutFileName);
AnsiString Path=GetSystemTemp();
for(int i=0;i<FHttpThreadCount;i++)
OutTmpFiles[i]=Path+ShortName+"-"+IntToStr(i)+".hpt";
HttpThreads = new THttpGetThread *[FHttpThreadCount];
}
// 建立一個下載執行緒
THttpGetThread * THttpGetEx::CreateHttpThread(void)
{
THttpGetThread *HttpThread=new THttpGetThread(this);
HttpThread->URL=FURL;
…… // 初始化事件
HttpThread->OnComplete=OnThreadComplete; // 執行緒下載完成事件
return HttpThread;
}
// 建立下載執行緒陣列
void THttpGetEx::CreateHttpThreads(void)
{
AssignResource();
// 取得檔案大小,以決定各個執行緒下載的起始位置
THttpGetThread *HttpThread=CreateHttpThread();
HttpThreads[FHttpThreadCount-1]=HttpThread;
int FileSize=HttpThread->GetWEBFileSize();
// 把檔案分成FHttpThreadCount塊
int AvgSize=FileSize/FHttpThreadCount;
int *Starts= new int[FHttpThreadCount];
int *Bytes = new int[FHttpThreadCount];
for(int i=0;i<FHttpThreadCount;i++)
{
Starts[i]=i*AvgSize;
Bytes[i] =AvgSize;
}
// 修正最後一塊的大小
Bytes[FHttpThreadCount-1]=AvgSize+(FileSize-AvgSize*FHttpThreadCount);
// 檢查伺服器是否支援斷點續傳
HttpThread->StartPostion=Starts[FHttpThreadCount-1];
HttpThread->GetBytes=Bytes[FHttpThreadCount-1];
bool CanMulti=HttpThread->SetFilePointer();
if(CanMulti==false) // 不支援,直接下載
{
FHttpThreadCount=1;
HttpThread->StartPostion=0;
HttpThread->GetBytes=FileSize;
HttpThread->Index=0;
HttpThread->OutFileName=OutTmpFiles[0];
}else
{
HttpThread->OutFileName=OutTmpFiles[FHttpThreadCount-1];
HttpThread->Index=FHttpThreadCount-1;
// 支援斷點續傳,建立多個執行緒
for(int i=0;i<FHttpThreadCount-1;i++)
{
HttpThread=CreateHttpThread();
HttpThread->StartPostion=Starts[i];
HttpThread->GetBytes=Bytes[i];
HttpThread->OutFileName=OutTmpFiles[i];
HttpThread->Index=i;
HttpThreads[i]=HttpThread;
}
}
// 刪除臨時變數
delete Starts;
delete Bytes;
}
下載檔案的下載的函式如下:
void __fastcall THttpGetEx::DownLoadFile(void)
{
CreateHttpThreads();
THttpGetThread *HttpThread;
for(int i=0;i<FHttpThreadCount;i++)
{
HttpThread=HttpThreads[i];
HttpThread->Resume();
}
}
執行緒下載完成後,會發出OnThreadComplete事件,在這個事件中判斷是否所有下載執行緒都已經完成,如果是,則合併檔案的各個部分。應該注意,這裡有一個執行緒同步的問題,否則幾個執行緒同時產生這個事件時,會互相沖突,結果也會混亂。同步的方法很多,我的方法是建立執行緒互斥物件。
一直沒有找到原始碼,,找到的朋友希望留個地址。const char *MutexToThread="http-get-thread-mutex";
void __fastcall THttpGetEx::OnThreadComplete(TObject *Sender, int Index)
{
// 建立互斥物件
HANDLE hMutex= CreateMutex(NULL,FALSE,MutexToThread);
DWORD Err=GetLastError();
if(Err==ERROR_ALREADY_EXISTS) // 已經存在,等待
{
WaitForSingleObject(hMutex,INFINITE);//8000L);
hMutex= CreateMutex(NULL,FALSE,MutexToThread);
}
// 當一個執行緒結束時,檢查是否全部認為完成
FSuccesss[Index]=true;
bool S=true;
for(int i=0;i<FHttpThreadCount;i++)
{
S = S && FSuccesss[i];
}
ReleaseMutex(hMutex);
if(S)// 下載完成,合併檔案的各個部分
{
// 1. 複製第一部分
CopyFile(OutTmpFiles[0].c_str(),FOutFileName.c_str(),false);
// 新增其他部分
int hD=FileOpen(FOutFileName,fmOpenWrite);
FileSeek(hD,0,2); // 移動檔案指標到末尾
if(hD==-1)
{
DoOnError();
return;
}
const int BufSize=1024*4;
char Buf[BufSize+4];
int Reads;
for(int i=1;i<FHttpThreadCount;i++)
{
int hS=FileOpen(OutTmpFiles[i],fmOpenRead);
// 複製資料
Reads=FileRead(hS,(void *)Buf,BufSize);
while(Reads>0)
{
FileWrite(hD,(void *)Buf,Reads);
Reads=FileRead(hS,(void *)Buf,BufSize);
}
FileClose(hS);
}
FileClose(hD);
}
}