多核平臺下的JAVA優化

阿新 • • 發佈：2019-01-24

現在多核CPU是主流。利用多核技術，可以有效發揮硬體的能力，提升吞吐量，對於Java程式，可以實現併發垃圾收集。但是Java利用多核技術也帶來了一些問題，主要是多執行緒共享記憶體引起了。目前記憶體和CPU之間的頻寬是一個主要瓶頸，每個核可以獨享一部分快取記憶體，可以提高效能。JVM是利用作業系統的"輕量級程序"實現執行緒，所以執行緒每操作一次共享記憶體，都無法在快取記憶體中命中，是一次開銷較大的系統呼叫。所以區別於普通的優化，針對多核平臺，需要進行一些特殊的優化。

程式碼優化

執行緒數要大於等於核數

如果使用多執行緒，只有執行的執行緒數比核數大，才有可能榨乾CPU資源，否則會有若干核閒置。要注意的是，如果執行緒數目太多，就會佔用過多記憶體，導致效能不升反降。JVM的垃圾回收也是需要執行緒的，所以這裡的執行緒數包含JVM自己的執行緒

儘量減少共享資料寫操作

每個執行緒有自己的工作記憶體，在這個區域內，系統可以毫無顧忌的優化，如果去讀共享記憶體區域，效能也不會下降。但是一旦執行緒想寫共享記憶體(使用volatile關鍵字)，就會插入很多記憶體屏障操作(Memory Barrier或者Memory Fence)指令，保證處理器不亂序執行。相比寫本地執行緒自有的變數，效能下降很多。處理方法是儘量減少共享資料，這樣也符合"資料耦合"的設計原則。

使用synchronize關鍵字

在Java1.5中，synchronize是效能低效的。因為這是一個重量級操作，需要呼叫操作介面，導致有可能加鎖消耗的系統時間比加鎖以外的操作還多。相比之下使用Java提供的Lock物件，效能更高一些。但是到了Java1.6，發生了變化。synchronize在語義上很清晰，可以進行很多優化，有適應自旋，鎖消除，鎖粗化，輕量級鎖，偏向鎖等等。導致在Java1.6上synchronize的效能並不比Lock差。官方也表示，他們也更支援synchronize，在未來的版本中還有優化餘地。

使用樂觀策略

傳統的同步併發策略是悲觀的。表現語義為：多執行緒操作一個物件的時候，總覺得會有兩個執行緒在同時操作，所以需要鎖起來。樂觀策略是，假設平時就一個執行緒訪問，當出現了衝突的時候，再重試。這樣更高效一些。Java的AtomicInteger就是使用了這個策略。

使用執行緒本地變數(ThreadLocal)

使用ThreadLocal可以生成執行緒本地物件的副本，不會和其他執行緒共享。當該執行緒終止的時候，其本地變數可以全部回收。

類中Field的排序

可以將一個類會頻繁訪問到的幾個field放在一起，這樣他們就有更多的可能性被一起加入快取記憶體。同時最好把他們放在頭部。基本變數和引用變數不要交錯排放。

批量處理陣列

現在處理器可以用一條指令來處理一個數組中的多條記錄，例如可以同時向一個byte陣列中讀或者寫store記錄。所以要儘量使用System.arraycopy()這樣的批量介面，而不是自己運算元組。

JVM優化

啟用大記憶體頁

現在一個作業系統預設頁是4K。如果你的heap是4GB，就意味著要執行1024*1024次分配操作。所以最好能把頁調大。這個配額設計作業系統，單改Jvm是不行的。Linux上的配置有點複雜，不詳述。

在Java1.6中UseLargePages是預設開啟的，LasrgePageSzieInBytes被設定成了4M。筆者看到一些情況下配置成了128MB，在官方的效能測試中更是配置到256MB。

啟用壓縮指標

Java的64的效能比32慢，原因是因為其指標由32位擴充套件到64位，雖然定址空間從4GB擴大到256 TB，但導致效能的下降，並佔用了更多的記憶體。所以對指標進行壓縮。壓縮後的指標最多支援32GB記憶體，並且可以獲得32位JVM的效能。

在JDK6 update 23預設開啟了，之前的版本可以使用-XX:+UseCompressedOops來啟動配置。

效能可以看這個評測，效能的提升是很可觀。

啟用NUMA

numa是一個CPU的特性。SMP架構下，CPU的核是對稱，但是他們共享一條系統匯流排。所以CPU多了，匯流排就會成為瓶頸。在NUMA架構下，若干CPU組成一個組，組之間有點對點的通訊，相互獨立。啟動它可以提高效能。

NUMA需要硬體，作業系統，JVM同時啟用，才能啟用。Linux可以用numactl來配置numa,JVM通過-XX:+UseNUMA來啟用。

激進優化特性

在Java1.6中，激進優化(AggressiveOpts)是預設開啟的。激進優化是一般有一些下一個版本才會釋出的優化選項。但是有可能造成不穩定。前段時間以訛傳訛的JDK7的Bug，就是開啟這個選項後測到的。

逃逸分析

讓一個物件在一個方法內建立後，如果他傳遞出去，就可以稱為方法逃逸；如果傳遞到別的執行緒，成為執行緒逃逸。如果能知道一個物件沒有逃逸，就可以把它分配在棧而不是堆上，節約GC的時間。同時可以將這個物件拆散，直接使用其成員變數，有利於利用快取記憶體。如果一個物件沒有執行緒逃逸，就可以取消其中一切同步操作，很大的提高效能。

但是逃逸分析是很有難度的，因為花了cpu去對一個物件去分析，要是他不逃逸，就無法優化，之前的分析血本無歸。所以不能使用複雜的演算法，同時現在的JVM也沒有實現棧上分配。所以開啟之後，效能也可能下降。

可以使用-XX:+DoEscapeAnalysis來開啟逃逸分析。

高吞吐量GC配置

對於高吞吐量，在年輕態可以使用Parallel Scavenge,年老態可以使用Parallel Old垃圾收集器。
使用-XX:+UseParallelOldGC開啟

可以將-XX:ParallelGCThreads根據CPU的個數進行調整。可以是CPU數的1/2或者5/8

低延遲GC配置

對於低延遲的應用，在年輕態可以使用ParNew,年老態可以使用CMS垃圾收集器。

可以使用-XX:+UseConcMarkSweepGC和-XX:+UseParNewGC開啟。

可以將-XX:ParallelGCThreads根據CPU的個數進行調整。可以是CPU數的1/2或者5/8

可以調整-XX:MaxTenuringThreshold(晉升年老代年齡)調高，預設是15.這樣可以減少年老代GC的壓力

可以-XX:TargetSurvivorRatio，調整Survivor的佔用比率。預設50%.調高可以提供Survivor區的利用率

可以調整-XX:SurvivorRatio,調整Eden和Survivor的比重。預設是8。這個比重越小，Survivor越大，物件可以在年輕態呆更多時間。

等等

多核平臺下的JAVA優化

程式碼優化

JVM優化

多核平臺下的JAVA優化

windows和linux平臺下java簡訊貓的配置

精通lambda表達式:Java多核編程pdf

Java多執行緒程式設計 — 鎖優化

多核效能優化

Oracle10g下載地址--多平臺下的32位和64位

Java多執行緒之鎖優化策略

一位10年Java程式設計師總結進階中的你懂多執行緒和jvm優化嗎？

DVFS及多核處理器功耗優化技術詳解

推薦四十多條純乾貨 Java 程式碼優化建議

[效能優化]通過Shell實現將程序負載均衡到CPU多核

IntelliJ IDEA平臺下JNI程式設計（五）—本地C程式碼建立Java物件及引用

利用多核多執行緒進行程式優化

java控制多核cpu的佔用率

初探Lambda表示式-Java多核程式設計【0】從外部迭代到內部迭代

Oracle11g下載地址--多平臺下的32位和64位

Unity-多核優化2-Physics

Unity-多核優化3-ECS1

Android平臺下OpenGL圖形編程

Windows平臺下python2和3的兼容問題解決

多核平臺下的JAVA優化

程式碼優化

JVM優化

相關推薦