第二十章多核程式設計

阿新 • • 發佈：2020-08-24

20.1 如何在多核的CPU上更有效率的執行

20.1.1 使用大量程序

這個標準…顯而易見。

20.1.2 避免副作用

因為存在副作用, 導致使用共享記憶體方式時必須使用鎖機制, 雖然Erlang沒有共享記憶體, 但對於可以被多個程序共享的ETS表和DETS表還是應該特別注意。

20.1.3 順序瓶頸

對於本質就是順序性的問題, 顯然無法做到併發化。
而磁碟IO, 也是一個無法避免的自然瓶頸。
註冊程序, 人為的建立了一個潛在的順序瓶頸。

20.2 並行化順序程式碼

並行化的map

pmap(F, L) ->
    S = self(),
    Ref = erlang:make_ref(),
    %% 對於列表中的每個引數都啟動一個程序去處理 
    Pids = map(fun(I) ->spawn(fun() ->do_f(S, Ref, F, I) end) end, L),
    gather(Pids, Ref).

%% 處理完成後向父程序傳送結果
do_f(Parent, Ref, F, I) ->
    Parent ! {self(), Ref, (catch F(I))}.

%% 以正確的順序拼接每個程序的執行結果
gather([Pid|T], Ref) ->
    receive
        {Pid, Ref, Ret} ->[Ret|gather(T, Ref)]
    end;
gather([], _) ->[].

什麼時候可以用pmap:1. 計算量很小的函式; 2. 不建立太多的程序; 3. 在恰當的抽象層次上思考

20.3 小訊息, 大計算

啟動SMP Erlang

# -smp  啟動SMP Erlang
# +S N  使用N個Erlang虛擬機器
$ erl -smp +S N
  測試不同的虛擬機器數量對效能的影響
#!/bin/sh
echo "" >results
for i in 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 
do
   echo $i
   erl -boot start_clean -noshell -smp +S $i -s ptests tests $i >> results
done

20.4 map-reduce演算法和磁碟索引程式

20.4.1 map-reduce演算法

%% map函式     MapReduce每次給列表中的每個X建立一個新的程序 
F1 = fun(Pid, X) ->void,

%% reduce函式  針對每個鍵值, 將它所對應的所有值合併到一起
%% Acc0       累加器
F2 = fun(key, [Value], Acc0) ->Acc
L = [X]
Acc = X = term()

%% 呼叫形式
mapreduce(F1, F2, Acc0, L) ->Acc

具體的實現

mapreduce(F1, F2, Acc0, L) ->
    S = self(),
    %% 啟動新的程序執行reduce函式 
    Pid = spawn(fun() ->reduce(S, F1, F2, Acc0, L) end),
    receive
        {Pid, Result} ->
            Result
    end.


reduce(Parent, F1, F2, Acc0, L) ->
    process_flag(trap_exit, true),
    ReducePid = self(),

    %% map過程的實現
    %% 對於列表中的每個值都啟動一個程序在do_job中呼叫F1進行處理 
    foreach(fun(X) ->
            spawn_link(fun() ->do_job(ReducePid, F1, X) end)
        end, L),
    N = length(L),
    %% 用字典儲存鍵值
    Dict0 = dict:new(),
    %% 等待map過程完成
    Dict1 = collect_replies(N, Dict0),
    %% 呼叫F2按相同鍵值進行合併 
    Acc = dict:fold(F2, Acc0, Dict1),
    %% 向MapReduce程序通知執行結果
    Parent ! {self(), Acc}.

%% 按鍵值進行合併的過程
collect_replies(0, Dict) ->
    Dict;
collect_replies(N, Dict) ->
    receive
        %% 對鍵-值的處理
        %% 存在Key則將Val相加, 否則插入到字典
        {Key, Val} ->
            case dict:is_key(Key, Dict) of
                true ->
                    Dict1 = dict:append(Key, Val, Dict),
                    collect_replies(N, Dict1);
                false ->
                    Dict1 = dict:store(Key,[Val], Dict),
                    collect_replies(N, Dict1)
            end;
        {'EXIT', _,  _Why} ->
            collect_replies(N-1, Dict)
    end.

%% 執行指定的map函式
do_job(ReducePid, F, X) ->
    F(ReducePid, X).

測試程式碼:

-module(test_mapreduce).
-compile(export_all).
-import(lists, [reverse/1, sort/1]).

test() ->
    wc_dir(".").

wc_dir(Dir) ->
    %% map函式
    F1 = fun generate_words/2,
    %% reduce函式
    F2 = fun count_words/3,
    %% 引數列表
    Files = lib_find:files(Dir, ".*[.](erl)", false),
    %% 呼叫mapreduce處理
    L1 = phofs:mapreduce(F1, F2, [], Files),
    reverse(sort(L1)).

%% 查詢檔案中的每個單詞
generate_words(Pid, File) ->
    F = fun(Word) ->Pid ! {Word, 1} end,
    lib_misc:foreachWordInFile(File, F).

%% 統計有多少個不同的單詞
count_words(Key, Vals, A) ->
    [{length(Vals), Key}|A].

執行結果:

1> test_mapreduce:test().
[{115,"L"},
 {84,"T"},
 {80,"1"},
 {77,"end"},
 {72,"X"},
 {52,"H"},
 {47,"file"},
 {46,"S"},
 {44,"of"},
 {43,"F"},
 {40,"2"},
 {39,"Key"},
 {39,"Fun"},
 {37,"is"},
 {35,"case"},
 {34,"fun"},
 {34,"Pid"},
 {34,"N"},
 {33,"File"},
 {32,"true"},
 {31,"Str"},
 {28,"ok"},
 {27,"prefix"},
 {27,"Val"},
 {27,"I"},
 {26,"to"},
 {26,[...]},
 {24,...},
 {...}|...]

20.4.2 全文檢索

1. 反向索引
  檔案-內容對照表

檔名	內容
/home/dogs	rover jack buster winston
/home/animals/cats	zorro daisy jaguar
/home/cars	rover jaguar ford

索引-檔案對照表

索引	檔名
1	/home/dogs
2	/home/animals/cats
3	/home/cars

單詞-索引對照表

單詞	索引
rover	1,3
jack	1
buster	1
winston	1
zorro	2
daisy	2
jaguar	2,3
ford	3

1. 反向索引的查詢
  通過單詞-索引, 索引-檔案的對照表查詢單詞與檔案的對應關係
1. 反向索引的資料結構
  因為一個常見的詞可能在成千上萬的檔案中出現, 因此使用數字索引代替檔名可大大節省儲存空間, 因此需要檔案與索引的對照表。
  對於每個在檔案中出現的單詞, 都需要記錄此檔案的索引號, 因此建立單詞與索引的對照表。

20.4.3 索引器的操作

%% 啟動一個名為indexer_server的伺服器程序
%% 啟動一個worker程序來執行索引動作 
start() ->
    indexer_server:start(output_dir()),
    spawn_link(fun() ->worker() end).

worker() ->
    possibly_stop(),
    %% 返回下一個需要索引的目錄
    case indexer_server:next_dir() of
    {ok, Dir} ->
        %% 查詢目錄下需要進行索引的檔案 
        Files = indexer_misc:files_in_dir(Dir),
        %% 為其建立索引
        index_these_files(Files),
        %% 檢測是否正常完成
        indexer_server:checkpoint(),
        possibly_stop(),
        sleep(10000),
        worker();
    done ->
        true
    end.

%% 使用MapReduce演算法實現建立索引的並行處理 
index_these_files(Files) ->
    Ets = indexer_server:ets_table(),
    OutDir = filename:join(indexer_server:outdir(), "index"),
    %% map函式
    F1 = fun(Pid, File) ->indexer_words:words_in_file(Pid, File, Ets) end,
    %% reduce函式
    F2 = fun(Key, Val, Acc) ->handle_result(Key, Val, OutDir, Acc) end,
    indexer_misc:mapreduce(F1, F2, 0, Files).

%% 按照Key值進行合併
handle_result(Key, Vals, OutDir, Acc) ->
    add_to_file(OutDir, Key, Vals),
    Acc + 1.

%% 將索引陣列新增到Word中
add_to_file(OutDir, Word, Is) ->
    L1 = map(fun(I) -><<I:32>> end, Is),
    OutFile = filename:join(OutDir, Word),
    case file:open(OutFile, [write,binary,raw,append]) of
    {ok, S} ->
        file:pwrite(S, 0, L1),
        file:close(S);
    {error, E} ->
          exit({ebadFileOp, OutFile, E})
    end.

20.4.4 執行索引器

1> indexer:cold_start().
2> indexer:start().
3> indexer:stop().

20.4.5 評論

可以改進的三個方面

1. 改進單詞抽取
2. 改進map-reduce演算法, 以便處理海量資料
3. 方向索引的資料結構只使用了檔案系統來儲存

20.4.6 索引器的程式碼

第二十章多核程式設計

20.1 如何在多核的CPU上更有效率的執行 20.1.1 使用大量程序這個標準…顯而易見。

高階程式設計(第3版)第二十章JSON /筆記

JSON 語法簡單值字串、數值、布林值和 null 不支援 JavaScript中的特殊值 undefined 物件

第二十章搭建本地yum倉庫，倉庫共享給其他主機

搭建本地倉庫 1. yum倉庫，mount/dev/cdrom將映象光碟進行掛載，/mnt[root@lxy ~]# mount/dev/cdrom/mntmount: /dev/sr0 is write-protected, mounting read-only[root@lxy ~]# df -hFilesystemSizeUsed Avail

第二十章 nginx常見問題

一、Nginx常見問題一、nginx多server優先順序在開始處理一個http請求時，nginx會取出header頭中的Host變數，與nginx.conf中的每個server_name進行匹配，以此決定到底由哪一個server來處理這個請求，但nginx如何配置

第十章多對一

第十章、多對一處理 1 CREATE TABLE `teacher` ( 2`id` INT(10) NOT NULL, 3`name` VARCHAR(30) DEFAULT NULL,

第十章 python socker程式設計

10.1 弄懂HTTP、Socker、TCP這幾個概念整個計算機網路都是由協議組成的。 A是client端，B是伺服器端，當A向B傳送請求時，資料傳輸的時候（平時使用requests、urllib請求資料），在我們作業系統和網路之中要經歷5層

第七部分第二十章：虛擬專用網網際網路協議安全性：基於路由的×××

一、基於路由的×××拓撲二、基於路由的××× -------------------------------------------------------------------------------------------

第二十章 Centos7下Docker安裝Tomcat

一、查詢Tomcat映象 [root@staging ~]# docker search tomcat 二、拉取Tomcat映象 [root@staging ~]# docker pull tomcat

第二十章 HTTPS實現LNMP全站訪問

一、需求 1.恢復快照 2.搭建部落格和phpmyadmin 3.資料庫單獨部署 4.配置7層負載均衡

高階程式設計(第3版)第二十一章Ajax 與 Comet/筆記

Ajax 與 Comet Ajax技術的核心是 XMLHttpRequest 物件（簡稱 XHR）。能夠以非同步方式從伺服器取得更多資訊，意味著使用者單擊後，可以不必重新整理頁面也能取得新資料。也就是說，可以使用 XHR 物件取得新資

第十章：Python高階程式設計-多執行緒、多程序和執行緒池程式設計

第十章：Python高階程式設計-多執行緒、多程序和執行緒池程式設計 Python3高階核心技術97講筆記

C語言程式設計第五版第十章習題答案譚浩強課後答案

1.什麼是檔案型指標？通過檔案指標訪問檔案有什麼好處？答：緩衝檔案系統中，關鍵的概念是“檔案型別指標”，簡稱“檔案指標”。每個被使用的檔案都在記憶體中開闢一個相應的檔案資訊區，用來存放檔案的有關資訊(如

高階程式設計(第3版)第十章DOM/筆記

DOM 節點層次 Node型別 NodeList 是一種類陣列物件，用於儲存一組有序的節點，可以通過位置來訪問這些節點。

高階程式設計(第3版)第二十三章離線應用與客戶端儲存/筆記

離線應用與客戶端儲存離線檢測開發離線應用的第一步是要知道裝置是線上還是離線

第二十二章磁碟管理，Fdisk分割槽，Gdisk分割槽

磁碟管理 1. 磁碟的基本概念2. 磁碟的基本結構3. 磁碟的預備知識4. 磁碟基本分割槽Fdisk5. 磁碟基本分割槽Gdisk6. 磁碟掛載方式Mount7. 虛擬記憶體Swap介紹8. 磁碟陣列RAID概述9. 磁碟陣列RAID實戰10. 邏輯卷LVM概

第二十四章實踐部署邏輯卷

實踐一、部署邏輯卷第一步：安裝 yum install -y lvm2 第二步：讓兩塊硬碟支援LVM技術

第二十五章磁碟的故障及解決

磁碟的故障磁碟空間滿故障 01.磁碟block滿故障[root@lxy ~]# cp/etc/services/mbr/testcp: error writing ‘/mbr/test/services’: No space left on device #磁碟空間不足檢查報錯原因 1. 檢查磁

第二十八章管理程序狀態，程序的優先順序

管理程序狀態，終止程序當程式執行為程序後，如果希望停止程序 Linux系統中的killall、pkill命令用於殺死指定名字的程序，我們可以使用kill命令殺死指定程序PID的程序，如果要找到我們需要殺死的程序，我們還需要在

第二十七章程序管理

程序管理 1.什麼是程序？什麼是程序？比如：windows上安裝的QQ，我們會將其稱為QQ程式，那麼當QQ執行之後，在工作管理員中，我們可以看到QQ程式在執行著，此時，我們稱其為:QQ程序。言簡意賅總結：當我們執行一個程

第二十六章定時任務

定時任務什麼是crond ？Crond是Linux系統中用來定期執行命令或指令碼的一種服務軟體，一般情況下，我們安裝完CentOS作業系統之後，預設便會啟動Crond任務排程服務。Crond服務會定期（預設每分鐘檢查一次）檢查系

第二十章 多核程式設計

20.1 如何在多核的CPU上更有效率的執行

20.1.1 使用大量程序

20.1.2 避免副作用

20.1.3 順序瓶頸

20.2 並行化順序程式碼

20.3 小訊息, 大計算

20.4 map-reduce演算法和磁碟索引程式

20.4.1 map-reduce演算法

20.4.2 全文檢索

20.4.3 索引器的操作

20.4.4 執行索引器

20.4.5 評論

20.4.6 索引器的程式碼

相關推薦

第二十章多核程式設計