1. 程式人生 > >阿里巴巴雲舒:彈性計算的安全問題

阿里巴巴雲舒:彈性計算的安全問題

雲端計算帶來的新風險

在雲端計算之前的時代,傳統IDC機房就面臨著許多安全風險。這些問題毫無遺漏地傳遞到了雲端計算時代,不僅如此,雲端計算獨有的運作模式還帶來了更多新的問題。

雲內部的攻擊

安全域被打破在對外提供雲端計算業務之前,網際網路公司使用獨立的IDC機房,由邊界防火牆隔離成內外兩塊。防火牆內部屬於可信區域,自己獨佔,外部屬於不可信區域,所有的攻擊者都在這裡。安全人員只需要對這一道隔離牆加高、加厚即可保障安全,也可以在這道牆後面建立更多的牆形成縱深防禦。

但在開始提供雲端計算業務之後,這種簡潔的內外隔離安全方案已行不通了。通過購買雲伺服器,攻擊者已深入網路提供商的腹地,穿越了邊界防火牆。另一方面,雲端計算內部的資源不再是由某一家企業獨享,而是幾萬、幾十萬甚至更多互相不認識的企業所共有,當然也包含一些懷有惡意的使用者。顯然按照傳統的方式劃分安全域做隔離已行不通了,安全域被打破。

新的攻擊方式。傳統IDC時代,攻擊者處於邊界防火牆外部,與企業伺服器、路由器之間只有IP協議可達,也就是說攻擊者所能發起的攻擊只能位於三層之上。但對於雲端計算來說,情況發生了變化。在一個大二層網路裡面,攻擊者所控制的雲伺服器與雲服務提供商的路由器二層相連,攻擊者可以在更低的層面對這些裝置發動攻擊,如基於ARP協議的攻擊,常見的ARP欺騙攻擊,甚至更底層的乙太網頭部的偽造攻擊。

關於乙太網頭部的偽造攻擊,我曾遇到一次。攻擊者傳送的資料包非常小,只包含乙太網頭部共14個位元組,源和目的實體地址都是偽造的,上層協議型別為2個位元組的隨機資料,並基於常見的IP協議或者ARP協議,對交換機造成一些不良影響。

虛擬層穿透。雲端計算時代,一臺宿主機上可能執行著10臺虛擬機器,這些虛擬機器可能屬於10個不同的使用者。從某種意義上說,這臺物理機的功能與傳統IDC時代的交換機相當,它就是一臺交換機,承擔著這10臺虛擬機器的所有流量交換。入侵了一臺宿主機,其危害性與入侵了傳統時代的一臺交換機相當。但與交換機相比,是這臺宿主機更容易被入侵還是交換機更容易被入侵呢?顯然是宿主機更容易入侵。

首先,攻擊者的VM直接執行在這臺宿主機的記憶體裡,只使用一個虛擬層隔離。一旦攻擊者掌握了可以穿透虛擬層的漏洞,就可以毫不費力地完成入侵,常見的虛擬化層軟體(如Xen、KVM)都能找到類似的安全漏洞。

其次,交換機的系統比較簡單,開放的服務非常有限。而宿主機則是一臺標準的Linux伺服器,執行著標準的Linux作業系統和各種標準的服務,可被攻擊者使用的通道也多得多。

大規模效應

  • 傳統攻擊風險擴大。為了方便地讓VM故障漂移以及其他原因,雲端計算網路一般都會基於大二層架構,甚至是跨越機房、跨越城市的大二層架構。一個VLAN不再是傳統時代的200來臺伺服器,數量會多達幾百臺、幾千臺。在大二層網路內部,二層資料交換依賴交換機的CAM表定址。當MAC地址達到一定規模後,甚至可能導致CAM表被撐爆。類似的,ARP欺騙、乙太網埠欺騙、ARP風暴、NBNS風暴等二層內部的攻擊手法,危害性都遠遠超過了它們在傳統時代的影響。
  • 攻擊頻率急劇增大。由於使用者的多樣性及規模巨大,遭受的攻擊頻率也急劇增大。以阿里雲現在的規模,平均每天遭受約300起DDoS攻擊,其中50%攻擊流量超過5GBit/s。針對Web的攻擊及密碼破解攻擊更是以億計算。這種頻度的攻擊,給安全運維帶來了巨大挑戰。

安全的責任走向廣義

隨著更多的雲使用者入駐,雲內部署的應用也更是五花八門。安全部門需要負責的領域也逐漸擴大,從開始的保護企業內部安全,逐漸走向更上層的業務風險。

  • 雲端計算資源的濫用。雲端計算資源濫用主要包括兩方面。一是惡意欠費,因為雲端計算的許多業務屬於後付費業務,惡意使用者可能使用虛假資訊註冊,不停地更換資訊使用資源,導致雲服務提供商產生資損。作為安全部門,要對這種行為進行控制。二是許多攻擊者也會租用雲伺服器,進行垃圾郵件傳送、攻擊掃描、欺詐釣魚之類的活動。安全部門要能準確、實時地發現這種情況,並通過技術手段攔截。
  • 不良資訊處理。不良資訊主要是指雲伺服器使用者提供一些色情、賭博之類的服務,雲服務提供商需要能及時識別並制止,防止帶來業務風險。

技術挑戰

要解決上述這些風險,基於傳統的防禦思路,需要在網路中部署訪問控制策略,實施流量監控系統等。但對於雲來說,實施這些東西會遇到巨大的挑戰。

失控的雲

傳統時代,所有的流量都會通過交換機進行。通過NetFlow、SNMP、ACL等手段可以做到足夠完善的流量監控和訪問控制策略。但在雲時代,不跨越宿主機的VM之間的流量在宿主機的記憶體中直接交換完畢,網路部門、安全部門無法檢視和控制這些流量。

為了解決雲伺服器被入侵的問題,安全部門需要在伺服器上部署各種安全產品。但不幸的是在雲時代,這些伺服器的所有權並不歸屬於雲提供商,安全部門同樣沒有許可權對這些機器進行操作。在雲時代,安全部門只能隔靴搔癢地來解決安全問題。

業務多樣化帶來防禦複雜性

傳統IDC時代,安全部門聯合網路部門劃分一個一個的安全域,DNS伺服器歸DNS區域,Web伺服器歸Web區域,資料庫伺服器歸資料庫區域,一切都井井有條。但在雲時代,數以十萬計的使用者在幾十萬的雲伺服器上執行著各種各樣的服務。他們的PV、QPS和響應時間要求各不相同。

而安全方案又不可能有放之四海皆準的萬能藥。以DDoS防禦為例,CC攻擊最常見的防禦方案為客戶端meta跳轉、302跳轉甚至驗證碼。對於普通的以PC為主要客戶的網站來說,這麼做沒有任何問題。但對於以手機App為主要客戶的網站來說,這麼做就是滅頂之災。由於手機App訪問的是Web API介面,一般不會解析這種客戶端跳轉,更不用說填寫驗證碼了,這將導致業務完全不可用。業務的這種複雜性,給安全防禦帶來不小的挑戰。

隱私與監控的平衡

擔心隱私和資料安全是目前上雲的最大阻力,但為了解決雲端計算資源濫用、個性化安全策略等問題,又需要做流量監控,可能引起使用者的擔憂。作為雲端計算安全的設計者,需要小心把握兩者的平衡。

阿里雲的解決方案

分散式虛擬交換機

在阿里雲,安全部門是作為公司成立的第一批員工加入的,初期佔公司總員工總數的10%以上。從一開始,我們就考慮了安全性的問題,設計了一臺分散式的虛擬交換機,提供Web API,應對上述的各種挑戰和風險。分散式虛擬交換機部署在每一臺宿主機裡,與控制中心實時通訊,主要提供了以下兩大功能。

  • 自動遷移的安全組策略。在雲時代,不同的使用者共用同一段IP地址,所以基於IP地址已難以區分業務了。因此,我們使用使用者ID來做區分,基於使用者ID來實現安全域,實施安全策略。當用戶的VM出現故障遷移到其他宿主機時,這個VM的安全策略會自動遷移過去。
  • 動態繫結過濾。我們借鑑思科的DAI技術,實現了對資料包的動態檢查。在VM發出的資料包出虛擬網絡卡之前做一次過濾,剔除偽造的報文,如偽造源IP地址的報文和偽造源MAC地址的報文。靠近源端過濾,可以有效減輕惡意流量對網路造成的影響。

巨集觀分析統計

鑑於隱私的考慮,我們不對應用層資料做監控,而是通過對五元組之類的資料做巨集觀統計,發現惡意使用者對雲主機的濫用。圖1是一個典型的埠掃描之後做密碼掃描的例子。凌晨1點到9點之間,雲VM在對外做埠掃描,因為許多主機不存活,導致出流量遠大於進流量,而且具備非常典型的攻擊特徵,它只嘗試訪問大量IP地址的22、1433、3389埠。在上午10點半左右,進的流量開始大起來,而且目的埠不變,目的IP是前面IP地址的子集。這說明,攻擊者已提取了開放服務的主機,在進行密碼掃描了。使用這種方式,我們避免了侵犯隱私,又能實現對惡意行為的偵測。


圖1 典型的埠掃描之後做密碼掃描的例子

基於資料分析的個性化安全

基於資料分析的個性化安全,與監控惡意行為類似。我們統計並繪製每個雲伺服器的BPS、PPS、QPS時間曲線圖,掌握終端使用者的訪問規律。根據User-Agent、源IP地址歸屬分析移動App和PC的訪問分佈。基於這些統計資料,我們定製每個雲VM的WAF防禦策略、DDoS防禦觸發閾值和清洗閾值。

其次,由於前文描述過的大規模的原因,我們的雲盾系統每天可以捕獲大量的惡意IP地址,包括Web攻擊行為、DDoS攻擊行為、密碼破解行為、惡意註冊行為等。我們的安全系統將這些IP地址作為統一的資源庫提供,與所有的安全產品進行聯動,在攻擊者對某個VM進行攻擊之前就完成了防禦。

總結

我認為,雲安全不會是由雲服務提供商一家來做的,一定是通過SDN之類的方式,將網路開放出來由眾多的安全服務廠商提供自己的產品,為形形色色的使用者提供個性化、定製化的產品和服務。雲端計算在安全方面確實面臨著許多困難,但云終究是未來,這是不可阻擋的趨勢。

作者魏興國,阿里巴巴集團安全部高階專家。有10年網路安全從業經驗,先後就職於綠盟、雅虎,2008年進入阿里巴巴集團,現在負責雲端計算業務的安全架構。

相關推薦

阿里巴巴彈性計算安全問題

雲端計算帶來的新風險 在雲端計算之前的時代,傳統IDC機房就面臨著許多安全風險。這些問題毫無遺漏地傳遞到了雲端計算時代,不僅如此,雲端計算獨有的運作模式還帶來了更多新的問題。 雲內部的攻擊 安全域被打破。在對外提供雲端計算業務之前,網際網路公司使用獨立的IDC機房,由邊界防火牆隔離成內外兩塊。防火牆內部屬

計算之路-阿裏彈性伸縮無服務器可彈,已有服務器無兵可援

cit spec -h ebs request sca 天上 chan binding 活動起因: A scheduled task executes scaling rule "eBsJ2veNkwJkcGinmICVH1Q", changing the Total

深度解讀阿里巴巴原生映象分發系統 Dragonfly

Dragonfly 是一個由阿里巴巴開源的雲原生映象分發系統,主要解決以 Kubernetes 為核心的分散式應用編排系統的映象分發難題。隨著企業數字化大潮的席捲,行業應用紛紛朝微服務架構演進,並通過雲化平臺優化業務管理。Dragonfly 源於阿里巴巴,從實際落地場景出發,前瞻性地解決了雲原生映象分發的__

專訪阿里巴巴畢玄異地多活資料中心專案的來龍去脈

大資料時代,資料中心的異地容災變得非常重要。在去年雙十一之前,阿里巴巴上線了資料中心異地雙活專案。InfoQ就該專案採訪了阿里巴巴的林昊(花名畢玄)。 畢玄是阿里巴巴技術保障部的研究員,負責效能容量架構。資料中心異地多活專案就是他主導的。 InfoQ:首先請介紹一下資料中心異地多活這個專案。 畢玄:這個

阿里巴巴面試題 為什麼wait()和notify()需要搭配synchonized關鍵字使用

本文主要參考 理解此問題先修知識: synchronized 的含義: Java中每一個物件都可以成為一個監視器(Monitor), 該Monitor由一個鎖(lock), 一個

阿里巴巴面試總結測試工程師

  阿里巴巴的面試是網上預約的時間,武漢一共有兩天,五號和六號,原先是擔心自己準備的不夠充分,就把時間往後面移,最後定的是六號的下午四點半到六點的場,基本也就是武漢的最後一場,後來才發現,武漢可以說的上是全國比較晚面試的了,而今年馬雲又放出了風聲,不在擴招,員工是走一個招一

阿里巴巴王堅用資料來改變世界

“傳統資訊化建設都是從無到有,加了杆子和機器,但是新一代數字建設就是從有到無,繳費的機器沒有了,你回家繳,杆子沒有了,你回家繳。”

彈性計算平臺技術服務器“安全”“穩定”“彈性”的基石

blog 分享 每天 梳理 復制 阿裏雲 log 硬件 ofo 摘要: 2018杭州雲棲大會,彈性計算平臺技術專場精彩回顧 9月19日上午9點,杭州雲棲小鎮E1-3會場,2018年杭州雲棲大會彈性計算平臺技術專場拉開帷幕。 彈性計算系列產品是雲時代的基石產品之一,一直備受外

Cloud一分鐘 | 騰訊打造啟商學院,馬化騰將擔任榮譽院長;阿里巴巴2018財年雲端計算收入同比增長101%...

Hello,everyone: 11月02日早,星期五,新的一天祝大家工作愉快! 一分鐘新聞時間: 完 1.微信群: 新增小編微信:tangguoyemeng,備註“進群+姓名+公司職位”即可,加入【雲端計算學習交流群】,和志同道合的朋友們共

阿里總監課第四期軟硬體全棧專家褚霸攜專家團獨家分享彈性計算最佳實踐

對於很多公共雲使用者來說,彈性計算是上雲第一站。課程由彈性計算一線專家團隊傾力打造,以理論講解和實際操作結合的方式,從省錢竅門、使用誤區等角度切入,覆蓋背後的技術原理和架構方案,在帶您找到彈性計算最佳開啟方式的同時,讓您建立起完善的知識體系。 課程亮點  全方位展示彈性計算省錢竅門 直擊使用者的核心關

阿里巴巴大資料實踐筆記】第13章計算管理

計算平臺追求目標:目前內部 MaxCompute 叢集上有 200 多萬個任務,每天儲存資源、計算資源消耗都很大。 如何降低計算資源的消耗,提高任務執行的效能,提升任務產出的時間。 1.系統優化 (1)HBO (History-Based Optimiz町, 基於歷史的優化器

阿里伺服器出現了緊急安全事件挖礦程序

原因: 使用docker時,被下載挖礦映象,隨docker服務啟動,自動執行,導致server被挖礦,所挖虛擬幣貌似為XMR(門羅幣)。 解決: kill掉程序,刪除映象。 分析過程: 檢視程序 ps -e -o ‘pid,comm,args,pcpu,rsz

阿里朱照遠邊緣計算,無處不在

摘要: 在2018杭州雲棲大會19號下午的論壇上,朱照遠對邊緣計算進行了深入的闡述,他認為邊緣計算是雲端計算的一部分,是對雲端計算邊界的拓展,雲和邊緣、終端協同,是萬物智聯時代的基本形態,這一組合,將滿足企業低成本低延時的計算需求。 在2018杭州雲棲大會19號下午的論壇上,朱照遠對邊緣計算進行了深入的闡述

Cloud一分鐘 | 雲端儲存服務Dropbox Q3淨虧損580萬美元;阿里巴巴CEO張勇雲端計算未來將成為公司“主營業務”...

Hello,everyone: 11月09日早,星期五,新的一天祝大家工作愉快! 一分鐘新聞時間: 雲端計算 中國聯通官微宣佈與雲上貴州簽署基礎設施協議:此前,中國電信天翼雲與雲上貴州已於6月底正式簽署《基礎設施協議》,這標誌著自今年2月28日

阿里巴巴18個創始人不能...

南樂縣 阿里巴巴集團董事局主席馬雲發表致股東的公開信表示:生意難做之時,正是阿里巴巴兌現“讓天下沒有難做的生意”的使命之時。,阿里巴巴(NYSE:BABA)今日釋出了截至2018年9月30日的2019財年第二季度財報(注:阿里巴巴財年與自然年不同步,從每年的4月1日開始,至第二年的3月31日結束)。 財報中

物聯網攻擊的攔路虎阿里重磅推出物聯網安全運營中心Link SOC

阿里雲IoT自主研發了新一代物聯網安全平臺Link Security,面向IoT裝置全生命週期構建了一整套全鏈路多層次的安全防禦體系,IoT物聯網平臺的業務在不同層面可以按需整合安全能力。 1、首先在裝置開發階段,提供了三種安全等級,五類安全載體的可信根,通過安全計算環境來防止物聯網裝置

網際網路大腦架構分析之阿里巴巴商業AI和雲端計算AI是其重點領域

【資料猿導讀】 阿里依託在商業,工業生態的服務和資料優勢,建設包括阿里人工智慧實驗室,阿里巴巴

雲端計算之路-阿里從ASP.NET執行緒角度對“黑色30秒”問題的全新分析

在這篇博文中,我們拋開對阿里雲的懷疑,完全從ASP.NET的角度進行分析,看能不能找到針對問題現象的更合理的解釋。 “黑色30秒”問題現象的主要特徵是:排隊的請求(Requests Queued)突增,到達HTTP.SYS的請求數(Arrival Rate)下降,QPS(Requests/Sec)下降,CP

雲端計算之路-阿里藉助IIS Log Parser Studio分析“黑色30秒”問題

今天下午15:11-15:13間出現了類似“黑色30秒”的狀況,我們用強大的IIS日誌分析工具——Log Parser Studio進行了進一步的分析。 分析情況如下—— 先看一下Windows效能監視器中的問題表現: 然後用Log Parser Studio分析07:11:55與07:13:55(

雲端計算之路-阿里排查“黑色30秒”問題-為什麼請求會排隊

針對Web伺服器“黑色30秒”問題(詳見雲端計算之路-阿里雲上:Web伺服器遭遇奇怪的“黑色30秒”問題),經過分析,我們準備從這個地方下手——為什麼會出現\ASP.NET\Request Queued大於0的情況(為什麼請求會排隊)? 首先, 通過Windows效能監視器去觀察,看能不能找到這樣的線索——