一份針對於新手的多執行緒實踐

阿新 • • 發佈：2018-12-06

前言

前段時間在某個第三方平臺看到我寫作字數居然突破了 10W 字，難以想象高中 800 字作文我都得巧妙的利用換行來完成(懂的人肯定也幹過)。

幹了這行養成了一個習慣：能擼碼驗證的事情都自己驗證一遍。

於是在上週五通宵加班的空餘時間寫了一個工具：

https://github.com/crossoverJie/NOWS

利用 SpringBoot 只需要一行命令即可統計自己寫了多少個字。

java -jar nows-0.0.1-SNAPSHOT.jar /xx/Hexo/source/_posts

傳入需要掃描的文章目錄即可輸出結果（目前只支援 .md 結尾 Markdown 檔案）

一份針對於新手的多執行緒實踐

當然結果看個樂就行（40 幾萬字），因為早期的部落格我喜歡大篇的貼程式碼，還有一些英文單詞也沒有過濾，所以導致結果相差較大。

如果僅僅只是中文文字統計肯定是準的，並且該工具內建靈活的擴充套件方式，使用者可以自定義統計策略，具體請看後文。

其實這個工具挺簡單的，程式碼量也少，沒有多少可以值得拿出來講的。但經過我回憶不管是面試還是和網友們交流都發現一個普遍的現象：

大部分新手開發都會去看多執行緒、但幾乎都沒有相關的實踐。甚至有些都不知道多執行緒拿來在實際開發中有什麼用。

為此我想基於這個簡單的工具為這類朋友帶來一個可實踐、易理解的多執行緒案例。

至少可以讓你知道：

為什麼需要多執行緒？
怎麼實現一個多執行緒程式？
多執行緒帶來的問題及解決方案？

單執行緒統計

再談多執行緒之前先來聊聊單執行緒如何實現。

本次的需求也很簡單，只是需要掃描一個目錄讀取下面的所有檔案即可。

所有我們的實現有以下幾步：

讀取某個目錄下的所有檔案。
將所有檔案的路徑保持到記憶體。
遍歷所有的檔案挨個讀取文字記錄字數即可。

先來看前兩個如何實現，並且當掃描到目錄時需要繼續讀取當前目錄下的檔案。

這樣的場景就非常適合遞迴：

public List<String> getAllFile(String path){

File f = new File(path) ;

File[] files = f.listFiles();

for (File file : files) {

if (file.isDirectory()){

String directoryPath = file.getPath();

getAllFile(directoryPath);

}else {

String filePath = file.getPath();

if (!filePath.endsWith(".md")){

continue;

}

allFile.add(filePath) ;

}

return allFile ;

}

}

讀取之後將檔案的路徑保持到一個集合中。

需要注意的是這個遞迴次數需要控制下，避免出現棧溢位(StackOverflow)。

最後讀取檔案內容則是使用 Java8 中的流來進行讀取，這樣程式碼可以更簡潔：

Stream<String> stringStream = Files.lines(Paths.get(path), StandardCharsets.UTF_8);

List<String> collect = stringStream.collect(Collectors.toList());

接下來便是讀取字數，同時要過濾一些特殊文字（比如我想過濾掉所有的空格、換行、超連結等）。

擴充套件能力

簡單處理可在上面的程式碼中遍歷 collect 然後把其中需要過濾的內容替換為空就行。

但每個人的想法可能都不一樣。比如我只想過濾掉空格、換行、超連結就行了，但有些人需要去掉其中所有的英文單詞，甚至換行還得留著（就像寫作文一樣可以充字數）。

所有這就需要一個比較靈活的處理方式。

看過上文《利用責任鏈模式設計一個攔截器》應該很容易想到這樣的場景責任鏈模式再合適不過了。

關於責任鏈模式具體的內容就不在詳述了，感興趣的可以檢視上文。

這裡直接看實現吧：

定義責任鏈的抽象介面及處理方法：

public interface FilterProcess {

/**

* 處理文字

* @param msg

* @return

String process(String msg) ;

}

處理空格和換行的實現：

public class WrapFilterProcess implements FilterProcess{

@Override

public String process(String msg) {

msg = msg.replaceAll("\s*", "");

return msg ;

}

}

處理超連結的實現：

public class HttpFilterProcess implements FilterProcess{

@Override

public String process(String msg) {

msg = msg.replaceAll("^((https|http|ftp|rtsp|mms)?:\/\/)[^\s]+","");

return msg ;

}

}

這樣在初始化時需要將這些處理 handle 都加入責任鏈中，同時提供一個 API 供客戶端執行即可。

一份針對於新手的多執行緒實踐

這樣一個簡單的統計字數的工具就完成了。

多執行緒模式

在我本地一共就幾十篇部落格的條件下執行一次還是很快的，但如果我們的檔案是幾萬、幾十萬甚至上百萬呢。

雖然功能可以實現，但可以想象這樣的耗時絕對是成倍的增加。

這時多執行緒就發揮優勢了，由多個執行緒分別去讀取檔案最後彙總結果即可。

這樣實現的過程就變為：

讀取某個目錄下的所有檔案。
將檔案路徑交由不同的執行緒自行處理。
最終彙總結果。

多執行緒帶來的問題

也不是使用多執行緒就萬事大吉了，先來看看第一個問題：共享資源。

簡單來說就是怎麼保證多執行緒和單執行緒統計的總字數是一致的。

基於我本地的環境先看看單執行緒執行的結果：

一份針對於新手的多執行緒實踐

總計為：414142 字。

接下來換為多執行緒的方式：

List<String> allFile = scannerFile.getAllFile(strings[0]);

logger.info("allFile size=[{}]",allFile.size());

for (String msg : allFile) {

executorService.execute(new ScanNumTask(msg,filterProcessManager));

}

public class ScanNumTask implements Runnable {

private static Logger logger = LoggerFactory.getLogger(ScanNumTask.class);

private String path;

private FilterProcessManager filterProcessManager;

public ScanNumTask(String path, FilterProcessManager filterProcessManager) {

this.path = path;

this.filterProcessManager = filterProcessManager;

}

@Override

public void run() {

Stream<String> stringStream = null;

try {

stringStream = Files.lines(Paths.get(path), StandardCharsets.UTF_8);

} catch (Exception e) {

logger.error("IOException", e);

}

List<String> collect = stringStream.collect(Collectors.toList());

for (String msg : collect) {

filterProcessManager.process(msg);

}

}

使用執行緒池管理執行緒，更多執行緒池相關的內容請看這裡：《如何優雅的使用和理解執行緒池》

執行結果：

一份針對於新手的多執行緒實踐

我們會發現無論執行多少次，這個值都會小於我們的預期值。

來看看統計那裡是怎麼實現的。

@Component

public class TotalWords {

private long sum = 0 ;

public void sum(int count){

sum += count;

}

public long total(){

return sum;

}

}

可以看到就是對一個基本型別進行累加而已。那導致這個值比預期小的原因是什麼呢？

我想大部分人都會說：多執行緒執行時會導致有些執行緒把其他執行緒運算的值覆蓋。

但其實這只是導致這個問題的表象，根本原因還是沒有講清楚。

記憶體可見性

核心原因其實是由 Java 記憶體模型（JMM）的規定導致的。

這裡引用一段之前寫的《你應該知道的 volatile 關鍵字》一段解釋：

由於 Java 記憶體模型(JMM)規定，所有的變數都存放在主記憶體中，而每個執行緒都有著自己的工作記憶體(快取記憶體)。

執行緒在工作時，需要將主記憶體中的資料拷貝到工作記憶體中。這樣對資料的任何操作都是基於工作記憶體(效率提高)，並且不能直接操作主記憶體以及其他執行緒工作記憶體中的資料，之後再將更新之後的資料重新整理到主記憶體中。

這裡所提到的主記憶體可以簡單認為是堆記憶體，而工作記憶體則可以認為是棧記憶體。

如下圖所示：

一份針對於新手的多執行緒實踐

所以在併發執行時可能會出現執行緒 B 所讀取到的資料是執行緒 A 更新之前的資料。

更多相關內容就不再展開了，感興趣的朋友可以翻翻以前的博文。

直接來說如何解決這個問題吧，JDK 其實已經幫我們想到了這些問題。

在 java.util.concurrent 併發包下有許多你可能會使用到的併發工具。

這裡就非常適合 AtomicLong，它可以原子性的對資料進行修改。

來看看修改後的實現：

@Component

public class TotalWords {

private AtomicLong sum = new AtomicLong() ;

public void sum(int count){

sum.addAndGet(count) ;

}

public long total(){

return sum.get() ;

}

}

只是使用了它的兩個 API 而已。再來執行下程式會發現結果居然還是不對。

一份針對於新手的多執行緒實踐

甚至為 0 了。

執行緒間通訊

這時又出現了一個新的問題，來看看獲取總計資料是怎麼實現的。

List<String> allFile = scannerFile.getAllFile(strings[0]);

logger.info("allFile size=[{}]",allFile.size());

for (String msg : allFile) {

executorService.execute(new ScanNumTask(msg,filterProcessManager));

}

executorService.shutdown();

long total = totalWords.total();

long end = System.currentTimeMillis();

logger.info("total sum=[{}],[{}] ms",total,end-start);

知道大家看出問題沒有，其實是在最後列印總數時並不知道其他執行緒是否已經執行完畢了。

因為 executorService.execute() 會直接返回，所以當列印獲取資料時還沒有一個執行緒執行完畢，也就導致了這樣的結果。

關於執行緒間通訊之前我也寫過相關的內容：《深入理解執行緒通訊》

大概的方式有以下幾種：

一份針對於新手的多執行緒實踐

這裡我們使用執行緒池的方式：

在停用執行緒池後加上一個判斷條件即可：

executorService.shutdown();

while (!executorService.awaitTermination(100, TimeUnit.MILLISECONDS)) {

logger.info("worker running");

}

long total = totalWords.total();

long end = System.currentTimeMillis();

logger.info("total sum=[{}],[{}] ms",total,end-start);

這樣我們再次嘗試，發現無論多少次結果都是正確的了：

一份針對於新手的多執行緒實踐

效率提升

可能還會有朋友問，這樣的方式也沒見提升多少效率啊。

這其實是由於我本地檔案少，加上一個檔案處理的耗時也比較短導致的。

甚至執行緒數開的夠多導致頻繁的上下文切換還是讓執行效率降低。

為了模擬效率的提升，每處理一個檔案我都讓當前執行緒休眠 100 毫秒來模擬執行耗時。

先看單執行緒執行需要耗時多久。

一份針對於新手的多執行緒實踐

總共耗時：[8404] ms

接著線上程池大小為 4 的情況下耗時：

一份針對於新手的多執行緒實踐

總共耗時：[2350] ms

可見效率提升還是非常明顯的。

總結

希望看完的朋友心中能對文初的幾個問題能有自己的答案：

為什麼需要多執行緒？
怎麼實現一個多執行緒程式？
多執行緒帶來的問題及解決方案？

一份針對於新手的多執行緒實踐

前言前段時間在某個第三方平臺看到我寫作字數居然突破了 10W 字，難以想象高中 800 字作文我都得巧妙的利用換行來完成(懂的人肯定也幹過)。幹了這行養成了一個習慣：能擼碼驗證的事情都自己驗證一遍。於是在上週五通宵加班的空餘時間寫了一個工具： https://github.co

一份針對於新手的多執行緒實踐--進階篇

前言這只是多執行緒其中的一個用法，相信看到這裡的朋友應該多它的理解更進一步了。再給大家留個閱後練習，場景也是類似的：在 Redis 或者其他儲存介質中存放有上千萬的手機號碼資料，每個號碼都是唯一的，需要在最快的時間內把這些號碼全部都遍歷一遍。有想法感興趣的朋友歡迎在文末留言參與討論??。

一份針對於新手的多線程

rect work sha 初始 follow 行修改如何實現運行時字數前言前段時間在某個第三方平臺看到我寫作字數居然突破了 10W 字，難以想象高中 800 字作文我都得巧妙的利用換行來完成(懂的人肯定也幹過)。幹了這行養成了一個習慣：能擼碼驗證的事情都自己驗證

Redis面試題（一）: Redis到底是多執行緒還是單執行緒？

0. redis單執行緒問題單執行緒指的是網路請求模組使用了一個執行緒（所以不需考慮併發安全性），即一個執行緒處理所有網路請求，其他模組仍用了多個執行緒。 1

一位牛人的多執行緒和非同步呼叫文章 ~轉自部落格園的“小顧問”

首先申明：這篇文章不是我寫的，我看到的一位牛人的，自己慢慢的消化了……摘要：本章討論與智慧客戶端應用程式中多執行緒的使用有關的問題。為了最大限度地提高智慧客戶端應用程式的響應能力，需要仔細考慮如何和何時使用多執行緒。執行緒可以大大提高應用程式的可用性和效能，但是當您確定它們將如何與使用者介面互動時，需要對其進

C++11併發程式設計（一）——初始C++11多執行緒庫

1 前言　　C++11標準在標準庫中為多執行緒提供了元件，這意味著使用C++編寫與平臺無關的多執行緒程式成為可能，而C++程式的可移植性也得到了有力的保證。　　在之前我們主要使用的多執行緒庫要麼

原創 DLL編寫經驗總結（一）使DLL支援多執行緒

最近用Delphi編寫DLL比較多，總結幾條經驗方便以後回顧。需求背景：DLL介面自身是向主調方提供服務，考慮到主調方的不定性以及響應速度問題，需要支援多執行緒。實現思路：DLL在初次載入或者被喚醒的時候會呼叫DLLMain函式(Delphi的Main函式頭已被隱藏，實際上就

Java ExecutorService 多執行緒實踐（一）

需要實現一個多執行緒併發的業務場景，啟動若干子執行緒，最後要所有子執行緒執行結束才結束。（類似 .NET 裡的 Task WaitAll )Java 中的 ExecutorService 多執行緒程式設計模型提供這樣一個機制，通過程式碼來介紹一下。方法一：ExecutorSe

一文看盡Java-多執行緒概念

一、前言主要講解一下多執行緒中的一些概念，本文之後就開始針對JUC包的設計開始解讀；二、概念執行緒安全 1.存在共享資料(臨界資源)；2.多個執行緒同時操作共享資料；只有同時出現這兩種情況的時候才會造成執行緒安

Java5 多執行緒實踐

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Linux多執行緒實踐（四）執行緒的特定資料

在單執行緒程式中，我們經常要用到"全域性變數"以實現多個函式間共享資料, 然而在多執行緒環境下，由於資料空間是共享的，因此全域性變數也為所有執行緒所共有。但有時應用程式設計中有必要提供執行緒私有的全域

Linux多執行緒實踐(8) --Posix條件變數解決生產者消費者問題

Posix條件變數int pthread_cond_init(pthread_cond_t *cond, pthread_condattr_t *cond_attr); int pthread_cond_destroy(pthread_cond_t *cond); int

Linux多執行緒實踐(9) --簡單執行緒池的設計與實現

執行緒池的技術背景在面向物件程式設計中，建立和銷燬物件是很費時間的，因為建立一個物件要獲取記憶體資源或者其它更多資源。在Java中更是如此，虛擬機器將試圖跟蹤每一個物件，以便能夠在物件銷燬後進行垃圾回收。所以提高服務程式效率的一個手段就是儘可能減少建立和銷燬物件的次數，

Linux多執行緒實踐(3) --執行緒屬性

初始化/銷燬執行緒屬性int pthread_attr_init(pthread_attr_t *attr); int pthread_attr_destroy(pthread_attr_t *attr

用Python BeautifulSoup寫的一份多執行緒圖片抓取的指令碼

最近一個做設計的妹子需要從一個素材的網站（https://www.goodfon.su）下載各種圖片原圖作為設計的素材，但是苦於境外網站，而且只能單張下載，而且單張圖片需要兩個路徑才能到達原圖的下載地址。幾年沒寫過Python的我決定從操就業幫她寫一份批量下載的指令碼。由於是國外網站

【Arduino】一份簡單的（偽）多執行緒示例 - print "Hello World" 和 echo 功能

Arduino 上執行（偽）多執行緒示例 - print “Hello World” 和 echo 功能 Arduino 上執行（偽）多執行緒示例 - print "Hello World" 和 echo 功能 Demo Note

一份基於quartz的任務多執行緒處理模板

本任務處理模板使用maven管理具體jar包依賴，使用quartz2.2.2搭建的一個定時任務處理模板，模板提供了一個CommonJob類用於quartz呼叫，此類的作用是處理任務模板類，規定了處理任務的步驟為：①獲取待處理任務列表；②遍歷待處理任務列表，逐一進行處理。然後只需要注入一個具體的任務類

多執行緒詳解（一）

[多執行緒詳解（一）](http://www.neilx.com) 一、概念準備 1、程序 (1）直譯：正在進行中的程式 (2)解釋：執行一個程式時，會在記憶體中為程式開闢空間，這個空間就是一個程序。 (3)注意：一個程序中不可能沒有執行緒，只有有了執行緒才能執行; 程序只

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

多執行緒學習---執行緒鎖的應用(十一)

Lock比傳統執行緒模型中的synchronized方式更加面向物件，與生活中的鎖類似，鎖本身也應該是一個物件。兩個執行緒執行的程式碼片段要實現同步互斥的效果，它們必須使用同一個Lock物件。鎖是上在代表要操作資源的類的內部方法中，而不是執行緒的程式碼中！示例程式碼： public c

一份針對於新手的多執行緒實踐

前言

單執行緒統計

擴充套件能力

多執行緒模式

更多思考

總結

相關推薦