CDN學習筆記一(CDN是什麼?)
CDN是什麼?
談到CDN的作用,可以用8年買火車票的經歷來形象比喻:
8年前,還沒有火車票代售點一說,12306.cn更是無從說起。那時候火車票還只能在火車站的售票大廳購買,而我所住的小縣城並不通火車,火車票都要去市裡的火車站購買,而從縣城到市裡,來回就是4個小時車程,簡直就是浪費生命。後來就好了,小縣城裡出現了火車票代售點,可以直接在代售點購買火車,方便了不少,全市人民再也不用在一個點苦逼的排隊買票了。
CDN就可以理解為分佈在每個縣城的火車票代售點,使用者在瀏覽網站的時候,CDN會選擇一個離使用者最近的CDN邊緣節點來響應使用者的請求,這樣海南移動使用者的請求就不會千里迢迢跑到北京電信機房的伺服器(假設源站部署在北京電信機房)上了。 CDN的優勢很明顯:(1)CDN節點解決了跨運營商和跨地域訪問的問題,訪問延時大大降低;(2)大部分請求在CDN邊緣節點完成,CDN起到了分流作用,減輕了源站的負載。
快取是什麼?
這裡不深究CDN背後高大上的架構,也不討論CDN如何做到全域性流量排程策略,本文著重討論在有了CDN後,資料是如何被快取的。快取是一個到處都存在的用空間換時間的例子。通過使用多餘的空間,我們能夠獲取更快的速度。
首先,看看沒有網站沒有接入CDN時,使用者瀏覽器與伺服器是如何互動的:
使用者在瀏覽網站的時候,瀏覽器能夠在本地儲存網站中的圖片或者其他檔案的副本,這樣使用者再次訪問該網站的時候,瀏覽器就不用再下載全部的檔案,減少了下載量意味著提高了頁面載入的速度。
如果中間加上一層CDN,那麼使用者瀏覽器與伺服器的互動如下:
客戶端瀏覽器先檢查是否有本地快取是否過期,如果過期,則向CDN邊緣節點發起請求,CDN邊緣節點會檢測使用者請求資料的快取是否過期,如果沒有過期,則直接響應使用者請求,此時一個完成http請求結束;如果資料已經過期,那麼CDN還需要向源站發出回源請求(back to the source request),來拉取最新的資料。CDN的典型拓撲圖如下:
可以看到,在存在CDN的場景下,資料經歷了客戶端(瀏覽器)快取和CDN邊緣節點快取兩個階段,下面分別對這兩個階段的快取進行詳細的剖析
客戶端(瀏覽器)快取 客戶端快取的缺點
客戶端快取減少了的伺服器請求,避免了檔案重複載入,顯著地提升了使用者地方。但是當網站發生了更新的時候(如替換了css、js以及圖片檔案),瀏覽器本地仍儲存著舊版本的檔案,從而導致無法預料後果。
曾幾何時,一個頁面加載出來,頁面各元素位置亂飄,按鈕點選失效,前端GG都會習慣性地問一句:“快取清了沒?”,然後Ctrl+F5 ,Everything is OK。但有些時候,如果我們是簡單地在瀏覽器位址列中敲一個回車,或者是僅僅按F5重新整理,問題依然沒有解決,你可知道這三種不同的操作方式,決定瀏覽器不同的重新整理快取策略?
瀏覽器如何來確定使用本地檔案還是使用伺服器上的新檔案?下面來介紹幾種判斷的方法。
瀏覽器快取策略 Expires
Expires:Sat, 24 Jan 2015 20:30:54 GMT
如果http響應報文中設定了Expires,在Expires過期之前,我們就避免了和伺服器之間的連線。此時,瀏覽器無需想瀏覽器發出請求,只需要自己判斷手中的材料是否過期就可以了,完全不需要增加伺服器的負擔。
Cache-control: max-age <ignore_js_op>
Expires的方法很好,但是我們每次都得算一個精確的時間。max-age 標籤可以讓我們更加容易的處理過期時間。我們只需要說,這份資料你只能用一個星期就可以了。
Max-age 使用秒來計量,如:
Cache-Control:max-age=645672
指定頁面645672秒(7.47天)後過期。
Last-Modified
伺服器為了通知瀏覽器當前檔案的版本,會發送一個上次修改時間的標籤,例如:
Last-Modified:Tue, 06 Jan 2015 08:26:32 GMT
這樣瀏覽器就知道他收到的這個檔案建立時間,在後續的請求中,瀏覽器會按照下面的規則進行驗證:
1. 瀏覽器:Hey,我需要jquery.min.js這個檔案,如果是在 Tue, 06 Jan 2015 08:26:32 GMT 之後修改過的,請發給我。
2. 伺服器:(檢查檔案的修改時間)
3. 伺服器:Hey,這個檔案在那個時間之後沒有被修改過,你已經有最新的版本了。
4. 瀏覽器:太好了,那我就顯示給使用者了。
在這種情況下,伺服器僅僅返回了一個304的響應頭,減少了響應的資料量,提高了響應的速度。關於304響應,請參考:
下圖是按F5重新整理頁面後,頁面返回304響應頭。
ETag
通常情況下,通過修改時間來比較檔案是可行的。但是在一些特殊情況,例如伺服器的時鐘發生了錯誤,伺服器時鐘進行修改,夏時制DST到來後伺服器時間沒有及時更新,這些都會引起通過修改時間比較檔案版本的問題。
ETag可以用來解決這種問題。ETag是一個檔案的唯一標誌符。就像一個雜湊或者指紋,每個檔案都有一個單獨的標誌,只要這個檔案發生了改變,這個標誌就會發生變化。
伺服器返回ETag標籤:
ETag:"39001d-1762a-50bf790757e00"
接下來的訪問順序如下所示:
1. 瀏覽器:Hey,我需要jquery.min.js這個檔案,有沒有不匹配"39001d-1762a-50bf790757e00"這個串的
2. 伺服器:(檢查ETag…)
3. 伺服器:Hey,我這裡的版本也是"39001d-1762a-50bf790757e00",你已經是最新的版本了
4. 瀏覽器:好,那就可以使用本地快取了
如同 Last-modified 一樣,ETag 解決了檔案版本比較的問題。只不過 ETag 的級別比 Last-Modified 高一些。
額外的標籤
快取標籤永遠不會停止工作,但是有時候我們需要對已經快取的內容進行一些控制。
l Cache-control: public 表示快取的版本可以被代理伺服器或者其他中間伺服器識別。
l Cache-control: private 意味著這個檔案對不同的使用者是不同的。只有使用者自己的瀏覽器能夠進行快取,公共的代理伺服器不允許快取。
l Cache-control: no-cache 意味著檔案的內容不應當被快取。這在搜尋或者翻頁結果中非常有用,因為同樣的URL,對應的內容會發生變化。
瀏覽器快取重新整理
1. 在位址列中輸入網址後按回車或點選轉到按鈕
瀏覽器以最少的請求來獲取網頁的資料,瀏覽器會對所有沒有過期的內容直接使用本地快取,從而減少了對瀏覽器的請求。所以,Expires,max-age標記只對這種方式有效。
2. 按F5或瀏覽器重新整理按鈕
瀏覽器會在請求中附加必要的快取協商,但不允許瀏覽器直接使用本地快取,它能夠讓 Last-Modified、ETag發揮效果,但是對Expires無效。
3. 按Ctrl+F5或按Ctrl並點選重新整理按鈕
這種方式就是強制重新整理,總會發起一個全新的請求,不使用任何快取。
CDN快取
瀏覽器本地快取失效後,瀏覽器會向CDN邊緣節點發起請求。類似瀏覽器快取,CDN邊緣節點也存在著一套快取機制。
CDN快取的缺點
CDN的分流作用不僅減少了使用者的訪問延時,也減少的源站的負載。但其缺點也很明顯:當網站更新時,如果CDN節點上資料沒有及時更新,即便使用者再瀏覽器使用Ctrl +F5的方式使瀏覽器端的快取失效,也會因為CDN邊緣節點沒有同步最新資料而導致使用者訪問異常。
CDN快取策略
CDN邊緣節點快取策略因服務商不同而不同,但一般都會遵循http標準協議,通過http響應頭中的Cache-control: max-age的欄位來設定CDN邊緣節點資料快取時間。
當客戶端向CDN節點請求資料時,CDN節點會判斷快取資料是否過期,若快取資料並沒有過期,則直接將快取資料返回給客戶端;否則,CDN節點就會向源站發出回源請求,從源站拉取最新資料,更新本地快取,並將最新資料返回給客戶端。
CDN服務商一般會提供基於檔案字尾、目錄多個維度來指定CDN快取時間,為使用者提供更精細化的快取管理。
CDN快取時間會對“回源率”產生直接的影響。若CDN快取時間較短,CDN邊緣節點上的資料會經常失效,導致頻繁回源,增加了源站的負載,同時也增大的訪問延時;若CDN快取時間太長,會帶來資料更新時間慢的問題。開發者需要增對特定的業務,來做特定的資料快取時間管理。
CDN快取重新整理
CDN邊緣節點對開發者是透明的,相比於瀏覽器Ctrl+F5的強制重新整理來使瀏覽器本地快取失效,開發者可以通過CDN服務商提供的“重新整理快取”介面來達到清理CDN邊緣節點快取的目的。這樣開發者在更新資料後,可以使用“重新整理快取”功能來強制CDN節點上的資料快取過期,保證客戶端在訪問時,拉取到最新的資料。