java web開發 高併發處理
阿新 • • 發佈:2019-02-11
java處理高併發高負載類網站中資料庫的設計方法(java教程,java處理大量資料,java高負載資料)
一:高併發高負載類網站關注點之資料庫
沒錯,首先是資料庫,這是大多數應用所面臨的首個SPOF。尤其是Web2.0的應用,資料庫的響應是首先要解決的。
一般來說MySQL是最常用的,可能最初是一個mysql主機,當資料增加到100萬以上,那麼,MySQL的效能急劇下降。常用的優化措施是M-S(主-從)方式進行同步複製,將查詢和操作和分別在不同的伺服器上進行操作。我推薦的是M-M-Slaves方式,2個主Mysql,多個Slaves,需要注意的是,雖然有2個Master,但是同時只有1個是Active,我們可以在一定時候切換。之所以用2個M,是保證M不會又成為系統的SPOF。
Slaves可以進一步負載均衡,可以結合LVS,從而將select操作適當的平衡到不同的slaves上。
以上架構可以抗衡到一定量的負載,但是隨著使用者進一步增加,你的使用者表資料超過1千萬,這時那個M變成了SPOF。你不能任意擴充Slaves,否則複製同步的開銷將直線上升,怎麼辦?我的方法是表分割槽,從業務層面上進行分割槽。最簡單的,以使用者資料為例。根據一定的切分方式,比如id,切分到不同的資料庫叢集去。
全域性資料庫用於meta資料的查詢。缺點是每次查詢,會增加一次,比如你要查一個使用者nightsailer,你首先要到全域性資料庫群找到nightsailer對應的cluster id,然後再到指定的cluster找到nightsailer的實際資料。
每個cluster可以用m-m方式,或者m-m-slaves方式。這是一個可以擴充套件的結構,隨著負載的增加,你可以簡單的增加新的mysql cluster進去。
需要注意的是:
1、禁用全部auto_increment的欄位
2、id需要採用通用的演算法集中分配
3、要具有比較好的方法來監控mysql主機的負載和服務的執行狀態。如果你有30臺以上的mysql資料庫在跑就明白我的意思了。
4、不要使用永續性連結(不要用pconnect),相反,使用sqlrelay這種第三方的資料庫連結池,或者乾脆自己做,因為php4中mysql的連結池經常出問題。
二:高併發高負載網站的系統架構之HTML靜態化
其實大家都知道,效率最高、消耗最小的就是純靜態化 http://www.ablanxue.com/shtml/201207/776.shtml的html頁面,所以我們儘可能使我們的網站上的頁面採用靜態頁面來實現,這個最簡單的方法其實也是 最有效的方法。但是對於大量內容並且頻繁更新的網站,我們無法全部手動去挨個實現,於是出現了我們常見的資訊釋出系統CMS,像我們常訪問的各個門戶站點 的新聞頻道,甚至他們的其他頻道,都是通過資訊釋出系統來管理和實現的,資訊釋出系統可以實現最簡單的資訊錄入自動生成靜態頁面,還能具備頻道管理、許可權 管理、自動抓取等功能,對於一個大型網站來說,擁有一套高效、可管理的CMS是必不可少的。
除了門戶和資訊釋出型別的網站,對於互動性要求很高的社群型別網站來說,儘可能的靜態化也是提高效能的必要手段,將社群內的帖子、文章進行實時的靜態化,有更新的時候再重新靜態化也是大量使用的策略,像Mop的大雜燴就是使用了這樣的策略,網易社群等也是如此。
同時,html靜態化也是某些快取策略使用的手段,對於系統中頻繁使用資料庫查詢但是內容更新很小的應用,可以考慮使用html靜態化來實現,比如論壇 中論壇的公用設定資訊,這些資訊目前的主流論壇都可以進行後臺管理並且儲存再資料庫中,這些資訊其實大量被前臺程式呼叫,但是更新頻率很小,可以考慮將這 部分內容進行後臺更新的時候進行靜態化,這樣避免了大量的資料庫訪問請求高併發。
網站HTML靜態化解決方案
當一個Servlet資源請求到達WEB伺服器之後我們會填充指定的JSP頁面來響應請求:
HTTP請求---Web伺服器---Servlet--業務邏輯處理--訪問資料--填充JSP--響應請求
HTML靜態化之後:
HTTP請求---Web伺服器---Servlet--HTML--響應請求
靜態訪求如下
Servlet:
public void doGet(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
if(request.getParameter("chapterId") != null){
String chapterFileName = "bookChapterRead_"+request.getParameter("chapterId")+".html";
String chapterFilePath = getServletContext().getRealPath("/") + chapterFileName;
File chapterFile = new File(chapterFilePath);
if(chapterFile.exists()){response.sendRedirect(chapterFileName);return;}//如果有這個檔案就告訴瀏覽器轉向
INovelChapterBiz novelChapterBiz = new NovelChapterBizImpl();
NovelChapter novelChapter = novelChapterBiz.searchNovelChapterById(Integer.parseInt(request.getParameter("chapterId")));//章節資訊
int lastPageId = novelChapterBiz.searchLastCHapterId(novelChapter.getNovelId().getId(), novelChapter.getId());
int nextPageId = novelChapterBiz.searchNextChapterId(novelChapter.getNovelId().getId(), novelChapter.getId());
request.setAttribute("novelChapter", novelChapter);
request.setAttribute("lastPageId", lastPageId);
request.setAttribute("nextPageId", nextPageId);
new CreateStaticHTMLPage().createStaticHTMLPage(request, response, getServletContext(),
chapterFileName, chapterFilePath, "/bookRead.jsp");
}
}
生成HTML靜態頁面的類:
package com.jb.y2t034.thefifth.web.servlet;
import java.io.ByteArrayOutputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import javax.servlet.RequestDispatcher;
import javax.servlet.ServletContext;
import javax.servlet.ServletException;
import javax.servlet.ServletOutputStream;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import javax.servlet.http.HttpServletResponseWrapper;
/**
* 建立HTML靜態頁面
* 功能:建立HTML靜態頁面
* 時間:2009年1011日
* 地點:home
* @author mavk
*
*/
public class CreateStaticHTMLPage {
/**
* 生成靜態HTML頁面的方法
* @param request 請求物件
* @param response 響應物件
* @param servletContext Servlet上下文
* @param fileName 檔名稱
* @param fileFullPath 檔案完整路徑
* @param jspPath 需要生成靜態檔案的JSP路徑(相對即可)
* @throws IOException
* @throws ServletException
*/
public void createStaticHTMLPage(HttpServletRequest request, HttpServletResponse response,ServletContext servletContext,String fileName,String fileFullPath,String jspPath) throws ServletException, IOException{
response.setContentType("text/html;charset=gb2312");//設定HTML結果流編碼(即HTML檔案編碼)
RequestDispatcher rd = servletContext.getRequestDispatcher(jspPath);//得到JSP資源
final ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();//用於從ServletOutputStream中接收資源
final ServletOutputStream servletOuputStream = new ServletOutputStream(){//用於從HttpServletResponse中接收資源
public void write(byte[] b, int off,int len){
byteArrayOutputStream.write(b, off, len);
}
public void write(int b){
byteArrayOutputStream.write(b);
}
};
final PrintWriter printWriter = new PrintWriter(new OutputStreamWriter(byteArrayOutputStream));//把轉換位元組流轉換成字元流
HttpServletResponse httpServletResponse = new HttpServletResponseWrapper(response){//用於從response獲取結果流資源(重寫了兩個方法)
public ServletOutputStream getOutputStream(){
return servletOuputStream;
}
public PrintWriter getWriter(){
return printWriter;
}
};
rd.include(request, httpServletResponse);//傳送結果流
printWriter.flush();//重新整理緩衝區,把緩衝區的資料輸出
FileOutputStream fileOutputStream = new FileOutputStream(fileFullPath);
byteArrayOutputStream.writeTo(fileOutputStream);//把byteArrayOuputStream中的資源全部寫入到fileOuputStream中
fileOutputStream.close();//關閉輸出流,並釋放相關資源
response.sendRedirect(fileName);//傳送指定檔案流到客戶端
}
}
三:高併發高負載類網站關注點之快取、負載均衡、儲存
快取是另一個大問題,我一般用memcached來做快取叢集,一般來說部署10臺左右就差不多(10g記憶體池)。需要注意一點,千萬不能用使用
swap,最好關閉linux的swap。
負載均衡/加速
可能上面說快取的時候,有人第一想的是頁面靜態化,所謂的靜態html,我認為這是常識,不屬於要點了。頁面的靜態化隨之帶來的是靜態服務的
負載均衡和加速。我認為Lighttped+Squid是最好的方式了。
LVS <------->lighttped====>squid(s) ====lighttpd
上面是我經常用的。注意,我沒有用apache,除非特定的需求,否則我不部署apache,因為我一般用php-fastcgi配合lighttpd,
效能比apache+mod_php要強很多。
squid的使用可以解決檔案的同步等等問題,但是需要注意,你要很好的監控快取的命中率,儘可能的提高的90%以上。
squid和lighttped也有很多的話題要討論,這裡不贅述。
儲存
儲存也是一個大問題,一種是小檔案的儲存,比如圖片這類。另一種是大檔案的儲存,比如搜尋引擎的索引,一般單檔案都超過2g以上。
小檔案的儲存最簡單的方法是結合lighttpd來進行分佈。或者乾脆使用Redhat的GFS,優點是應用透明,缺點是費用較高。我是指
你購買盤陣的問題。我的專案中,儲存量是2-10Tb,我採用了分散式儲存。這裡要解決檔案的複製和冗餘。
這樣每個檔案有不同的冗餘,這方面可以參考google的gfs的論文。
大檔案的儲存,可以參考nutch的方案,現在已經獨立為hadoop子專案。(你可以google it)
其他:
此外,passport等也是考慮的,不過都屬於比較簡單的了。
四:高併發高負載網站的系統架構之圖片伺服器分離
大家知道,對於Web 伺服器來說,不管是Apache、IIS還是其他容器,圖片是最消耗資源的,於是我們有必要將圖片與頁面進行分離,這是基本上大型網站都會採用的策略,他 們都有獨立的圖片伺服器,甚至很多臺圖片伺服器。這樣的架構可以降低提供頁面訪問請求的伺服器系統壓力,並且可以保證系統不會因為圖片問題而崩潰,在應用 伺服器和圖片伺服器上,可以進行不同的配置優化,比如apache在配置ContentType的時候可以儘量少支援,儘可能少的LoadModule, 保證更高的系統消耗和執行效率。
利用Apache實現圖片伺服器的分離
緣由:
起步階段的應用,都可能部署在一臺伺服器上(費用上的原因)
第一個優先分離的,肯定是資料庫和應用伺服器。
第二個分離的,會是什麼呢?各有各的考慮,我所在的專案組重點考慮的節約頻寬,伺服器效能再好,頻寬再高,併發來了,也容易撐不住。因此,我這篇文章的重點在這裡。這裡重點是介紹實踐,不一定符合所有情況,供看者參考吧,
環境介紹:
WEB應用伺服器:4CPU雙核2G, 記憶體4G
部署:Win2003/Apache Http Server 2.1/Tomcat6
資料庫伺服器:4CPU雙核2G, 記憶體4G
部署:Win2003/MSSQL2000
步驟:
步驟一:增加2臺配置為:2CPU雙核2G,記憶體2G普通伺服器,做資源伺服器
部署:Tomcat6,跑了一個圖片上傳的簡單應用,(記得指定web.xml的<distributable/>),並指定域名為res1.***.com,res2.***.com,採用ajp協議
步驟二:修改Apache httpd.conf配置
原來應用的檔案上傳功能網址為:
1、/fileupload.html
2、/otherupload.html
在httpd.conf中增加如下配置
<VirtualHost *:80>
ServerAdmin [email protected]***.com
ProxyPass /fileupload.html balancer://rescluster/fileupload lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3
ProxyPass /otherupload.html balancer://rescluster/otherupload.html lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3
#<!--負載均衡-->
<Proxy balancer://rescluster/>
BalancerMember ajp://res1.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat1
BalancerMember ajp://res2.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat2
</Proxy>
</VirtualHost>
步驟三,修改業務邏輯:
所有上傳檔案在資料庫中均採用全url的方式儲存,例如產品圖片路徑存成:http://res1.***.com/upload/20090101/product120302005.jpg
現在,你可以高枕無憂了,頻寬不夠時,增加個幾十臺圖片伺服器,只需要稍微修改一下apache的配置檔案,即可。
五:高併發高負載網站的系統架構之資料庫叢集和庫表雜湊
大型網站都有複雜的應用,這些應用必須使用資料庫,那麼在面對大量訪問的時候,資料庫的瓶頸很快就能顯現出來,這時一臺資料庫將很快無法滿足應用,於是我們需要使用資料庫叢集或者庫表雜湊。
在資料庫叢集方面,很多資料庫都有自己的解決方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是類似的方案,您使用了什麼樣的DB,就參考相應的解決方案來實施即可。
上面提到的資料庫叢集由於在架構、成本、擴張性方面都會受到所採用DB型別的限制,於是我們需要從應用程式的角度來考慮改善系統架構,庫表雜湊是常用並 且最有效的解決方案。我們在應用程式中安裝業務和應用或者功能模組將資料庫進行分離,不同的模組對應不同的資料庫或者表,再按照一定的策略對某個頁面或者 功能進行更小的資料庫雜湊,比如使用者表,按照使用者ID進行表雜湊,這樣就能夠低成本的提升系統的效能並且有很好的擴充套件性。sohu的論壇就是採用了這樣的 架構,將論壇的使用者、設定、帖子等資訊進行資料庫分離,然後對帖子、使用者按照板塊和ID進行雜湊資料庫和表,最終可以在配置檔案中進行簡單的配置便能讓系 統隨時增加一臺低成本的資料庫進來補充系統性能。
叢集軟體的分類:
一般來講,叢集軟體根據側重的方向和試圖解決的問題,分為三大類:高效能叢集(High performance cluster,HPC)、負載均衡叢集(Load balance cluster, LBC),高可用性叢集(High availability cluster,HAC)。
高效能叢集(High performance cluster,HPC),它是利用一個叢集中的多臺機器共同完成同一件任務,使得完成任務的速度和可靠性都遠遠高於單機執行的效果。彌補了單機效能上的不足。該叢集在天氣預報、環境監控等資料量大,計算複雜的環境中應用比較多;
負載均衡叢集(Load balance cluster, LBC),它是利用一個叢集中的多臺單機,完成許多並行的小的工作。一般情況下,如果一個應用使用的人多了,那麼使用者請求的響應時間就會增大,機器的效能也會受到影響,如果使用負載均衡叢集,那麼叢集中任意一臺機器都能響應使用者的請求,這樣叢集就會在使用者發出服務請求之後,選擇當時負載最小,能夠提供最好的服務的這臺機器來接受請求並相應,這樣就可用用叢集來增加系統的可用性和穩定性。這類叢集在網站中使用較多;
高可用性叢集(High availability cluster,HAC),它是利用叢集中系統 的冗餘,當系統中某臺機器發生損壞的時候,其他後備的機器可以迅速的接替它來啟動服務,等待故障機的維修和返回。最大限度的保證叢集中服務的可用性。這類系統一般在銀行,電信服務這類對系統可靠性有高的要求的領域有著廣泛的應用。
2 資料庫叢集的現狀
資料庫叢集是將計算機叢集技術引入到資料庫中來實現的,儘管各廠商宣稱自己的架構如何的完美,但是始終不能改變Oracle當先,大家追逐的事實,在叢集的解決方案上Oracle RAC還是領先於包括微軟在內的其它資料庫廠商,它能滿足客戶高可用性、高效能、資料庫負載均衡和方便擴充套件的需求。
Oracle’s Real Application Cluster (RAC)
Microsoft SQL Cluster Server (MSCS)
IBM’s DB2 UDB High Availability Cluster(UDB)
Sybase ASE High Availability Cluster (ASE)
MySQL High Availability Cluster (MySQL CS)
基於IO的第三方HA(高可用性)叢集
當前主要的資料庫叢集技術有以上六大類,有資料庫廠商自己開發的;也有第三方的叢集公司開發的;還有資料庫廠商與第三方叢集公司合作開發的,各類叢集實現的功能及架構也不盡相同。
RAC(Real Application Cluster,真正應用叢集)是Oracle9i資料庫中採用的一項新技術,也是Oracle資料庫支援網格計算環境的核心技術。它的出現解決了傳統資料庫應用中面臨的一個重要問題:高效能、高可伸縮性與低價格之間的矛盾。在很長一段時間裡,甲骨文都以其實時應用叢集技術(Real Application Cluster,RAC)統治著叢集資料庫市場
六:高併發高負載網站的系統架構之快取
快取一詞搞技術的都接觸過,很多地方用到快取。網站架構和網站開發中的快取也是非常重要。這裡先講述最基本的兩種快取。高階和分散式的快取在後面講述。
架構方面的快取,對Apache比較熟悉的人都能知道Apache提供了自己的快取模組,也可以使用外加的Squid模組進行快取,這兩種方式均可以有效的提高Apache的訪問響應能力。
網站程式開發方面的快取,Linux上提供的Memory Cache是常用的快取介面,可以在web開發中使用,比如用Java開發的時候就可以呼叫MemoryCache對一些資料進行快取和通訊共享,一些大 型社群使用了這樣的架構。另外,在使用web語言開發的時候,各種語言基本都有自己的快取模組和方法,PHP有Pear的Cache模組,Java就更多 了,.net不是很熟悉,相信也肯定有。
Java開源快取框架
JBossCache/TreeCache JBossCache是一個複製的事務處理快取,它允許你快取企業級應用資料來更好的改善效能。快取資料被自動複製,讓你輕鬆進行Jboss伺服器之間的叢集工作。JBossCache能夠通過Jboss應用服務或其他J2EE容器來執行一個Mbean服務,當然,它也能獨立執行。 JBossCache包括兩個模組:TreeCache和TreeCacheAOP。 TreeCache --是一個樹形結構複製的事務處理快取。 TreeCacheAOP --是一個“面向物件”快取,它使用AOP來動態管理POJO
OSCache OSCache標記庫由OpenSymphony設計,它是一種開創性的JSP定製標記應用,提供了在現有JSP頁面之內實現快速記憶體緩衝的功能。OSCache是個一個廣泛採用的高效能的J2EE快取框架,OSCache能用於任何Java應用程式的普通的快取解決方案。OSCache有以下特點:快取任何物件,你可以不受限制的快取部分jsp頁面或HTTP請求,任何java物件都可以快取。 擁有全面的API--OSCache API給你全面的程式來控制所有的OSCache特性。 永久快取--快取能隨意的寫入硬碟,因此允許昂貴的建立(expensive-to-create)資料來保持快取,甚至能讓應用重啟。 支援叢集--叢集快取資料能被單個的進行引數配置,不需要修改程式碼。 快取記錄的過期--你可以有最大限度的控制快取物件的過期,包括可插入式的重新整理策略(如果預設效能不需要時)。
JCACHE JCACHE是一種即將公佈的標準規範(JSR 107),說明了一種對Java物件臨時在記憶體中進行快取的方法,包括物件的建立、共享訪問、假離線(spooling)、失效、各JVM的一致性等。它可被用於快取JSP內最經常讀取的資料,如產品目錄和價格列表。利用JCACHE,多數查詢的反應時間會因為有快取的資料而加快(內部測試表明反應時間大約快15倍)。
Ehcache Ehcache出自Hibernate,在Hibernate中使用它作為資料快取的解決方案。
Java Caching System JCS是Jakarta的專案Turbine的子專案。它是一個複合式的緩衝工具。可以將物件緩衝到記憶體、硬碟。具有緩衝物件時間過期設定。還可以通過JCS構建具有緩衝的分散式構架,以實現高效能的應用。 對於一些需要頻繁訪問而每訪問一次都非常消耗資源的物件,可以臨時存放在緩衝區中,這樣可以提高服務的效能。而JCS正是一個很好的緩衝工具。緩衝工具對於讀操作遠遠多於寫操作的應用效能提高非常顯著。
SwarmCache SwarmCache是一個簡單而功能強大的分散式快取機制。它使用IP組播來有效地在快取的例項之間進行通訊。它是快速提高叢集式Web應用程式的效能的理想選擇。
ShiftOne ShiftOne Object Cache這個Java庫提供了基本的物件快取能力。實現的策略有先進先出(FIFO),最近使用(LRU),最不常使用(LFU)。所有的策略可以最大化元素的大小,最大化其生存時間。
WhirlyCache Whirlycache是一個快速的、可配置的、存在於記憶體中的物件的快取。它能夠通過快取物件來加快網站或應用程式的速度,否則就必須通過查詢資料庫或其他代價較高的處理程式來建立。
Jofti Jofti可對在快取層中(支援EHCache,JBossCache和OSCache)的物件或在支援Map介面的儲存結構中的物件進行索引與搜尋。這個框架還為物件在索引中的增刪改提供透明的功能同樣也為搜尋提供易於使用的查詢功能。
cache4j cache4j是一個有簡單API與實現快速的Java物件快取。它的特性包括:在記憶體中進行快取,設計用於多執行緒環境,兩種實現:同步與阻塞,多種快取清除策略:LFU, LRU, FIFO,可使用強引用(strong reference)與軟引用(soft reference)儲存物件。
Open Terracotta 一個JVM級的開源群集框架,提供:HTTP Session複製,分散式快取,POJO群集,跨越群集的JVM來實現分散式應用程式協調(採用程式碼注入的方式,所以你不需要修改任何)。
sccache SHOP.COM使用的物件快取系統。sccache是一個in-process cache和二級、共享快取。它將快取物件儲存到磁碟上。支援關聯Key,任意大小的Key和任意大小的資料。能夠自動進行垃圾收集。
Shoal Shoal是一個基於Java可擴充套件的動態叢集框架,能夠為構建容錯、可靠和可用的Java應用程式提供了基礎架構支援。這個框架還可以整合到不希望繫結到特定通訊協議,但需要叢集和分散式系統支援的任何Java產品中。Shoal是GlassFish和JonAS應用伺服器的叢集引擎。
Simple-Spring-Memcached Simple-Spring-Memcached,它封裝了對MemCached的呼叫,使MemCached的客戶端開發變得超乎尋常的簡單。
一:高併發高負載類網站關注點之資料庫
沒錯,首先是資料庫,這是大多數應用所面臨的首個SPOF。尤其是Web2.0的應用,資料庫的響應是首先要解決的。
一般來說MySQL是最常用的,可能最初是一個mysql主機,當資料增加到100萬以上,那麼,MySQL的效能急劇下降。常用的優化措施是M-S(主-從)方式進行同步複製,將查詢和操作和分別在不同的伺服器上進行操作。我推薦的是M-M-Slaves方式,2個主Mysql,多個Slaves,需要注意的是,雖然有2個Master,但是同時只有1個是Active,我們可以在一定時候切換。之所以用2個M,是保證M不會又成為系統的SPOF。
Slaves可以進一步負載均衡,可以結合LVS,從而將select操作適當的平衡到不同的slaves上。
以上架構可以抗衡到一定量的負載,但是隨著使用者進一步增加,你的使用者表資料超過1千萬,這時那個M變成了SPOF。你不能任意擴充Slaves,否則複製同步的開銷將直線上升,怎麼辦?我的方法是表分割槽,從業務層面上進行分割槽。最簡單的,以使用者資料為例。根據一定的切分方式,比如id,切分到不同的資料庫叢集去。
全域性資料庫用於meta資料的查詢。缺點是每次查詢,會增加一次,比如你要查一個使用者nightsailer,你首先要到全域性資料庫群找到nightsailer對應的cluster id,然後再到指定的cluster找到nightsailer的實際資料。
每個cluster可以用m-m方式,或者m-m-slaves方式。這是一個可以擴充套件的結構,隨著負載的增加,你可以簡單的增加新的mysql cluster進去。
需要注意的是:
1、禁用全部auto_increment的欄位
2、id需要採用通用的演算法集中分配
3、要具有比較好的方法來監控mysql主機的負載和服務的執行狀態。如果你有30臺以上的mysql資料庫在跑就明白我的意思了。
4、不要使用永續性連結(不要用pconnect),相反,使用sqlrelay這種第三方的資料庫連結池,或者乾脆自己做,因為php4中mysql的連結池經常出問題。
二:高併發高負載網站的系統架構之HTML靜態化
其實大家都知道,效率最高、消耗最小的就是純靜態化 http://www.ablanxue.com/shtml/201207/776.shtml的html頁面,所以我們儘可能使我們的網站上的頁面採用靜態頁面來實現,這個最簡單的方法其實也是 最有效的方法。但是對於大量內容並且頻繁更新的網站,我們無法全部手動去挨個實現,於是出現了我們常見的資訊釋出系統CMS,像我們常訪問的各個門戶站點 的新聞頻道,甚至他們的其他頻道,都是通過資訊釋出系統來管理和實現的,資訊釋出系統可以實現最簡單的資訊錄入自動生成靜態頁面,還能具備頻道管理、許可權 管理、自動抓取等功能,對於一個大型網站來說,擁有一套高效、可管理的CMS是必不可少的。
除了門戶和資訊釋出型別的網站,對於互動性要求很高的社群型別網站來說,儘可能的靜態化也是提高效能的必要手段,將社群內的帖子、文章進行實時的靜態化,有更新的時候再重新靜態化也是大量使用的策略,像Mop的大雜燴就是使用了這樣的策略,網易社群等也是如此。
同時,html靜態化也是某些快取策略使用的手段,對於系統中頻繁使用資料庫查詢但是內容更新很小的應用,可以考慮使用html靜態化來實現,比如論壇 中論壇的公用設定資訊,這些資訊目前的主流論壇都可以進行後臺管理並且儲存再資料庫中,這些資訊其實大量被前臺程式呼叫,但是更新頻率很小,可以考慮將這 部分內容進行後臺更新的時候進行靜態化,這樣避免了大量的資料庫訪問請求高併發。
網站HTML靜態化解決方案
當一個Servlet資源請求到達WEB伺服器之後我們會填充指定的JSP頁面來響應請求:
HTTP請求---Web伺服器---Servlet--業務邏輯處理--訪問資料--填充JSP--響應請求
HTML靜態化之後:
HTTP請求---Web伺服器---Servlet--HTML--響應請求
靜態訪求如下
Servlet:
public void doGet(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
if(request.getParameter("chapterId") != null){
String chapterFileName = "bookChapterRead_"+request.getParameter("chapterId")+".html";
String chapterFilePath = getServletContext().getRealPath("/") + chapterFileName;
File chapterFile = new File(chapterFilePath);
if(chapterFile.exists()){response.sendRedirect(chapterFileName);return;}//如果有這個檔案就告訴瀏覽器轉向
INovelChapterBiz novelChapterBiz = new NovelChapterBizImpl();
NovelChapter novelChapter = novelChapterBiz.searchNovelChapterById(Integer.parseInt(request.getParameter("chapterId")));//章節資訊
int lastPageId = novelChapterBiz.searchLastCHapterId(novelChapter.getNovelId().getId(), novelChapter.getId());
int nextPageId = novelChapterBiz.searchNextChapterId(novelChapter.getNovelId().getId(), novelChapter.getId());
request.setAttribute("novelChapter", novelChapter);
request.setAttribute("lastPageId", lastPageId);
request.setAttribute("nextPageId", nextPageId);
new CreateStaticHTMLPage().createStaticHTMLPage(request, response, getServletContext(),
chapterFileName, chapterFilePath, "/bookRead.jsp");
}
}
生成HTML靜態頁面的類:
package com.jb.y2t034.thefifth.web.servlet;
import java.io.ByteArrayOutputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import javax.servlet.RequestDispatcher;
import javax.servlet.ServletContext;
import javax.servlet.ServletException;
import javax.servlet.ServletOutputStream;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import javax.servlet.http.HttpServletResponseWrapper;
/**
* 建立HTML靜態頁面
* 功能:建立HTML靜態頁面
* 時間:2009年1011日
* 地點:home
* @author mavk
*
*/
public class CreateStaticHTMLPage {
/**
* 生成靜態HTML頁面的方法
* @param request 請求物件
* @param response 響應物件
* @param servletContext Servlet上下文
* @param fileName 檔名稱
* @param fileFullPath 檔案完整路徑
* @param jspPath 需要生成靜態檔案的JSP路徑(相對即可)
* @throws IOException
* @throws ServletException
*/
public void createStaticHTMLPage(HttpServletRequest request, HttpServletResponse response,ServletContext servletContext,String fileName,String fileFullPath,String jspPath) throws ServletException, IOException{
response.setContentType("text/html;charset=gb2312");//設定HTML結果流編碼(即HTML檔案編碼)
RequestDispatcher rd = servletContext.getRequestDispatcher(jspPath);//得到JSP資源
final ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();//用於從ServletOutputStream中接收資源
final ServletOutputStream servletOuputStream = new ServletOutputStream(){//用於從HttpServletResponse中接收資源
public void write(byte[] b, int off,int len){
byteArrayOutputStream.write(b, off, len);
}
public void write(int b){
byteArrayOutputStream.write(b);
}
};
final PrintWriter printWriter = new PrintWriter(new OutputStreamWriter(byteArrayOutputStream));//把轉換位元組流轉換成字元流
HttpServletResponse httpServletResponse = new HttpServletResponseWrapper(response){//用於從response獲取結果流資源(重寫了兩個方法)
public ServletOutputStream getOutputStream(){
return servletOuputStream;
}
public PrintWriter getWriter(){
return printWriter;
}
};
rd.include(request, httpServletResponse);//傳送結果流
printWriter.flush();//重新整理緩衝區,把緩衝區的資料輸出
FileOutputStream fileOutputStream = new FileOutputStream(fileFullPath);
byteArrayOutputStream.writeTo(fileOutputStream);//把byteArrayOuputStream中的資源全部寫入到fileOuputStream中
fileOutputStream.close();//關閉輸出流,並釋放相關資源
response.sendRedirect(fileName);//傳送指定檔案流到客戶端
}
}
三:高併發高負載類網站關注點之快取、負載均衡、儲存
快取是另一個大問題,我一般用memcached來做快取叢集,一般來說部署10臺左右就差不多(10g記憶體池)。需要注意一點,千萬不能用使用
swap,最好關閉linux的swap。
負載均衡/加速
可能上面說快取的時候,有人第一想的是頁面靜態化,所謂的靜態html,我認為這是常識,不屬於要點了。頁面的靜態化隨之帶來的是靜態服務的
負載均衡和加速。我認為Lighttped+Squid是最好的方式了。
LVS <------->lighttped====>squid(s) ====lighttpd
上面是我經常用的。注意,我沒有用apache,除非特定的需求,否則我不部署apache,因為我一般用php-fastcgi配合lighttpd,
效能比apache+mod_php要強很多。
squid的使用可以解決檔案的同步等等問題,但是需要注意,你要很好的監控快取的命中率,儘可能的提高的90%以上。
squid和lighttped也有很多的話題要討論,這裡不贅述。
儲存
儲存也是一個大問題,一種是小檔案的儲存,比如圖片這類。另一種是大檔案的儲存,比如搜尋引擎的索引,一般單檔案都超過2g以上。
小檔案的儲存最簡單的方法是結合lighttpd來進行分佈。或者乾脆使用Redhat的GFS,優點是應用透明,缺點是費用較高。我是指
你購買盤陣的問題。我的專案中,儲存量是2-10Tb,我採用了分散式儲存。這裡要解決檔案的複製和冗餘。
這樣每個檔案有不同的冗餘,這方面可以參考google的gfs的論文。
大檔案的儲存,可以參考nutch的方案,現在已經獨立為hadoop子專案。(你可以google it)
其他:
此外,passport等也是考慮的,不過都屬於比較簡單的了。
四:高併發高負載網站的系統架構之圖片伺服器分離
大家知道,對於Web 伺服器來說,不管是Apache、IIS還是其他容器,圖片是最消耗資源的,於是我們有必要將圖片與頁面進行分離,這是基本上大型網站都會採用的策略,他 們都有獨立的圖片伺服器,甚至很多臺圖片伺服器。這樣的架構可以降低提供頁面訪問請求的伺服器系統壓力,並且可以保證系統不會因為圖片問題而崩潰,在應用 伺服器和圖片伺服器上,可以進行不同的配置優化,比如apache在配置ContentType的時候可以儘量少支援,儘可能少的LoadModule, 保證更高的系統消耗和執行效率。
利用Apache實現圖片伺服器的分離
緣由:
起步階段的應用,都可能部署在一臺伺服器上(費用上的原因)
第一個優先分離的,肯定是資料庫和應用伺服器。
第二個分離的,會是什麼呢?各有各的考慮,我所在的專案組重點考慮的節約頻寬,伺服器效能再好,頻寬再高,併發來了,也容易撐不住。因此,我這篇文章的重點在這裡。這裡重點是介紹實踐,不一定符合所有情況,供看者參考吧,
環境介紹:
WEB應用伺服器:4CPU雙核2G, 記憶體4G
部署:Win2003/Apache Http Server 2.1/Tomcat6
資料庫伺服器:4CPU雙核2G, 記憶體4G
部署:Win2003/MSSQL2000
步驟:
步驟一:增加2臺配置為:2CPU雙核2G,記憶體2G普通伺服器,做資源伺服器
部署:Tomcat6,跑了一個圖片上傳的簡單應用,(記得指定web.xml的<distributable/>),並指定域名為res1.***.com,res2.***.com,採用ajp協議
步驟二:修改Apache httpd.conf配置
原來應用的檔案上傳功能網址為:
1、/fileupload.html
2、/otherupload.html
在httpd.conf中增加如下配置
<VirtualHost *:80>
ServerAdmin
ProxyPass /fileupload.html balancer://rescluster/fileupload lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3
ProxyPass /otherupload.html balancer://rescluster/otherupload.html lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3
#<!--負載均衡-->
<Proxy balancer://rescluster/>
BalancerMember ajp://res1.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat1
BalancerMember ajp://res2.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat2
</Proxy>
</VirtualHost>
步驟三,修改業務邏輯:
所有上傳檔案在資料庫中均採用全url的方式儲存,例如產品圖片路徑存成:http://res1.***.com/upload/20090101/product120302005.jpg
現在,你可以高枕無憂了,頻寬不夠時,增加個幾十臺圖片伺服器,只需要稍微修改一下apache的配置檔案,即可。
五:高併發高負載網站的系統架構之資料庫叢集和庫表雜湊
大型網站都有複雜的應用,這些應用必須使用資料庫,那麼在面對大量訪問的時候,資料庫的瓶頸很快就能顯現出來,這時一臺資料庫將很快無法滿足應用,於是我們需要使用資料庫叢集或者庫表雜湊。
在資料庫叢集方面,很多資料庫都有自己的解決方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是類似的方案,您使用了什麼樣的DB,就參考相應的解決方案來實施即可。
上面提到的資料庫叢集由於在架構、成本、擴張性方面都會受到所採用DB型別的限制,於是我們需要從應用程式的角度來考慮改善系統架構,庫表雜湊是常用並 且最有效的解決方案。我們在應用程式中安裝業務和應用或者功能模組將資料庫進行分離,不同的模組對應不同的資料庫或者表,再按照一定的策略對某個頁面或者 功能進行更小的資料庫雜湊,比如使用者表,按照使用者ID進行表雜湊,這樣就能夠低成本的提升系統的效能並且有很好的擴充套件性。sohu的論壇就是採用了這樣的 架構,將論壇的使用者、設定、帖子等資訊進行資料庫分離,然後對帖子、使用者按照板塊和ID進行雜湊資料庫和表,最終可以在配置檔案中進行簡單的配置便能讓系 統隨時增加一臺低成本的資料庫進來補充系統性能。
叢集軟體的分類:
一般來講,叢集軟體根據側重的方向和試圖解決的問題,分為三大類:高效能叢集(High performance cluster,HPC)、負載均衡叢集(Load balance cluster, LBC),高可用性叢集(High availability cluster,HAC)。
高效能叢集(High performance cluster,HPC),它是利用一個叢集中的多臺機器共同完成同一件任務,使得完成任務的速度和可靠性都遠遠高於單機執行的效果。彌補了單機效能上的不足。該叢集在天氣預報、環境監控等資料量大,計算複雜的環境中應用比較多;
負載均衡叢集(Load balance cluster, LBC),它是利用一個叢集中的多臺單機,完成許多並行的小的工作。一般情況下,如果一個應用使用的人多了,那麼使用者請求的響應時間就會增大,機器的效能也會受到影響,如果使用負載均衡叢集,那麼叢集中任意一臺機器都能響應使用者的請求,這樣叢集就會在使用者發出服務請求之後,選擇當時負載最小,能夠提供最好的服務的這臺機器來接受請求並相應,這樣就可用用叢集來增加系統的可用性和穩定性。這類叢集在網站中使用較多;
高可用性叢集(High availability cluster,HAC),它是利用叢集中系統 的冗餘,當系統中某臺機器發生損壞的時候,其他後備的機器可以迅速的接替它來啟動服務,等待故障機的維修和返回。最大限度的保證叢集中服務的可用性。這類系統一般在銀行,電信服務這類對系統可靠性有高的要求的領域有著廣泛的應用。
2 資料庫叢集的現狀
資料庫叢集是將計算機叢集技術引入到資料庫中來實現的,儘管各廠商宣稱自己的架構如何的完美,但是始終不能改變Oracle當先,大家追逐的事實,在叢集的解決方案上Oracle RAC還是領先於包括微軟在內的其它資料庫廠商,它能滿足客戶高可用性、高效能、資料庫負載均衡和方便擴充套件的需求。
Oracle’s Real Application Cluster (RAC)
Microsoft SQL Cluster Server (MSCS)
IBM’s DB2 UDB High Availability Cluster(UDB)
Sybase ASE High Availability Cluster (ASE)
MySQL High Availability Cluster (MySQL CS)
基於IO的第三方HA(高可用性)叢集
當前主要的資料庫叢集技術有以上六大類,有資料庫廠商自己開發的;也有第三方的叢集公司開發的;還有資料庫廠商與第三方叢集公司合作開發的,各類叢集實現的功能及架構也不盡相同。
RAC(Real Application Cluster,真正應用叢集)是Oracle9i資料庫中採用的一項新技術,也是Oracle資料庫支援網格計算環境的核心技術。它的出現解決了傳統資料庫應用中面臨的一個重要問題:高效能、高可伸縮性與低價格之間的矛盾。在很長一段時間裡,甲骨文都以其實時應用叢集技術(Real Application Cluster,RAC)統治著叢集資料庫市場
六:高併發高負載網站的系統架構之快取
快取一詞搞技術的都接觸過,很多地方用到快取。網站架構和網站開發中的快取也是非常重要。這裡先講述最基本的兩種快取。高階和分散式的快取在後面講述。
架構方面的快取,對Apache比較熟悉的人都能知道Apache提供了自己的快取模組,也可以使用外加的Squid模組進行快取,這兩種方式均可以有效的提高Apache的訪問響應能力。
網站程式開發方面的快取,Linux上提供的Memory Cache是常用的快取介面,可以在web開發中使用,比如用Java開發的時候就可以呼叫MemoryCache對一些資料進行快取和通訊共享,一些大 型社群使用了這樣的架構。另外,在使用web語言開發的時候,各種語言基本都有自己的快取模組和方法,PHP有Pear的Cache模組,Java就更多 了,.net不是很熟悉,相信也肯定有。
Java開源快取框架
JBossCache/TreeCache JBossCache是一個複製的事務處理快取,它允許你快取企業級應用資料來更好的改善效能。快取資料被自動複製,讓你輕鬆進行Jboss伺服器之間的叢集工作。JBossCache能夠通過Jboss應用服務或其他J2EE容器來執行一個Mbean服務,當然,它也能獨立執行。 JBossCache包括兩個模組:TreeCache和TreeCacheAOP。 TreeCache --是一個樹形結構複製的事務處理快取。 TreeCacheAOP --是一個“面向物件”快取,它使用AOP來動態管理POJO
OSCache OSCache標記庫由OpenSymphony設計,它是一種開創性的JSP定製標記應用,提供了在現有JSP頁面之內實現快速記憶體緩衝的功能。OSCache是個一個廣泛採用的高效能的J2EE快取框架,OSCache能用於任何Java應用程式的普通的快取解決方案。OSCache有以下特點:快取任何物件,你可以不受限制的快取部分jsp頁面或HTTP請求,任何java物件都可以快取。 擁有全面的API--OSCache API給你全面的程式來控制所有的OSCache特性。 永久快取--快取能隨意的寫入硬碟,因此允許昂貴的建立(expensive-to-create)資料來保持快取,甚至能讓應用重啟。 支援叢集--叢集快取資料能被單個的進行引數配置,不需要修改程式碼。 快取記錄的過期--你可以有最大限度的控制快取物件的過期,包括可插入式的重新整理策略(如果預設效能不需要時)。
JCACHE JCACHE是一種即將公佈的標準規範(JSR 107),說明了一種對Java物件臨時在記憶體中進行快取的方法,包括物件的建立、共享訪問、假離線(spooling)、失效、各JVM的一致性等。它可被用於快取JSP內最經常讀取的資料,如產品目錄和價格列表。利用JCACHE,多數查詢的反應時間會因為有快取的資料而加快(內部測試表明反應時間大約快15倍)。
Ehcache Ehcache出自Hibernate,在Hibernate中使用它作為資料快取的解決方案。
Java Caching System JCS是Jakarta的專案Turbine的子專案。它是一個複合式的緩衝工具。可以將物件緩衝到記憶體、硬碟。具有緩衝物件時間過期設定。還可以通過JCS構建具有緩衝的分散式構架,以實現高效能的應用。 對於一些需要頻繁訪問而每訪問一次都非常消耗資源的物件,可以臨時存放在緩衝區中,這樣可以提高服務的效能。而JCS正是一個很好的緩衝工具。緩衝工具對於讀操作遠遠多於寫操作的應用效能提高非常顯著。
SwarmCache SwarmCache是一個簡單而功能強大的分散式快取機制。它使用IP組播來有效地在快取的例項之間進行通訊。它是快速提高叢集式Web應用程式的效能的理想選擇。
ShiftOne ShiftOne Object Cache這個Java庫提供了基本的物件快取能力。實現的策略有先進先出(FIFO),最近使用(LRU),最不常使用(LFU)。所有的策略可以最大化元素的大小,最大化其生存時間。
WhirlyCache Whirlycache是一個快速的、可配置的、存在於記憶體中的物件的快取。它能夠通過快取物件來加快網站或應用程式的速度,否則就必須通過查詢資料庫或其他代價較高的處理程式來建立。
Jofti Jofti可對在快取層中(支援EHCache,JBossCache和OSCache)的物件或在支援Map介面的儲存結構中的物件進行索引與搜尋。這個框架還為物件在索引中的增刪改提供透明的功能同樣也為搜尋提供易於使用的查詢功能。
cache4j cache4j是一個有簡單API與實現快速的Java物件快取。它的特性包括:在記憶體中進行快取,設計用於多執行緒環境,兩種實現:同步與阻塞,多種快取清除策略:LFU, LRU, FIFO,可使用強引用(strong reference)與軟引用(soft reference)儲存物件。
Open Terracotta 一個JVM級的開源群集框架,提供:HTTP Session複製,分散式快取,POJO群集,跨越群集的JVM來實現分散式應用程式協調(採用程式碼注入的方式,所以你不需要修改任何)。
sccache SHOP.COM使用的物件快取系統。sccache是一個in-process cache和二級、共享快取。它將快取物件儲存到磁碟上。支援關聯Key,任意大小的Key和任意大小的資料。能夠自動進行垃圾收集。
Shoal Shoal是一個基於Java可擴充套件的動態叢集框架,能夠為構建容錯、可靠和可用的Java應用程式提供了基礎架構支援。這個框架還可以整合到不希望繫結到特定通訊協議,但需要叢集和分散式系統支援的任何Java產品中。Shoal是GlassFish和JonAS應用伺服器的叢集引擎。
Simple-Spring-Memcached Simple-Spring-Memcached,它封裝了對MemCached的呼叫,使MemCached的客戶端開發變得超乎尋常的簡單。