[work] Linux Shell多程序併發以及併發數控制
1. 基礎知識準備
1.1. linux後臺程序
Unix是一個多工系統,允許多使用者同時執行多個程式。shell的元字元&
提供了在後臺執行不需要鍵盤輸入的程式的方法。輸入命令後,其後緊跟&
字元,該命令就會被送往到linux後臺執行,而終端又可以繼續輸入下一個命令了。
比如:
sh a.sh &
sh b.sh &
sh c.sh &
這三個命令就會被同時送往linux後臺執行,在這個程度上,認為這三個命令併發執行了。
1.2. linux檔案描述符
檔案描述符(縮寫fd)在形式上是一個非負整數。實際上,它是一個索引值,指向核心為每一個程序所維護的該程序開啟檔案的記錄表。當程式開啟一個現有檔案或者建立一個新檔案時,核心向程序返回一個檔案描述符。每一個unix程序,都會擁有三個標準的檔案描述符,來對應三種不同的流:
檔案描述符 | 名稱 |
---|---|
0 | Standard Input |
1 | Standard Output |
2 | Standard Error |
每一個檔案描述符會對應一個開啟檔案,同時,不同的檔案描述符也可以對應同一個開啟檔案;同一個檔案可以被不同的程序開啟,也可以被同一個程序多次開啟。
在/proc/PID/fd
中,列舉了程序PID
所擁有的檔案描述符,例如
#!/bin/bash source /etc/profile; # $$表示當前程序的PID PID=$$ # 檢視當前程序的檔案描述符指向 ll /proc/$PID/fd echo "-------------------";echo # 檔案描述符1與檔案tempfd1進行繫結 ( [ -e ./tempfd1 ] || touch ./tempfd1 ) && exec 1<>./tempfd1 # 檢視當前程序的檔案描述符指向 ll /proc/$PID/fd echo "-------------------";echo;
[[email protected] learn_linux]$ sh learn_redirect.sh
total 0
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 0 -> /dev/pts/0
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 1 -> /dev/pts/0
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 2 -> /dev/pts/0
lr-x------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 255 -> /home/ouyangyewei/workspace/learn_linux/learn_redirect.sh
-------------------
[ [email protected] learn_linux]$ cat tempfd1
total 0
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 0 -> /dev/pts/0
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 1 -> /home/ouyangyewei/workspace/learn_linux/tempfd1
lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 2 -> /dev/pts/0
lr-x------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 255 -> /home/ouyangyewei/workspace/learn_linux/learn_redirect.sh
-------------------
上述的例子中第12行,將檔案描述符1與檔案tempfile
進行了繫結,此後,檔案描述符1指向了tempfile
檔案,標準輸出被重定向到了檔案tempfile
中。
1.3. linux管道
在Unix或類Unix作業系統中,管道是一個由標準輸入輸出連結起來的程序集合,因此,每一個程序的輸出將直接作為下一個程序的輸入,
linux管道包含兩種:
- 匿名管道
- 命名管道
管道有一個特點,如果管道中沒有資料,那麼取管道資料的操作就會滯留,直到管道內進入資料,然後讀出後才會終止這一操作;同理,寫入管道的操作如果沒有讀取管道的操作,這一動作就會滯留。
1.3.1. 匿名管道
在Unix或類Unix作業系統的命令列中,匿名管道使用ASCII中垂直線|
作為匿名管道符,匿名管道的兩端是兩個普通的,匿名的,開啟的檔案描述符:一個只讀端和一個只寫端,這就讓其它程序無法連線到該匿名管道。
例如:
cat file | less
為了執行上面的指令,Shell建立了兩個程序來分別執行cat
和less
。下圖展示了這兩個程序是如何使用管道的:
有一點值得注意的是兩個程序都連線到了管道上,這樣寫入程序cat
就將其標準輸出(檔案描述符為fd 1
)連線到了管道的寫入端,讀取程序less
就將其標準輸入(檔案描述符為fd 0
)連線到了管道的讀入端。實際上,這兩個程序並不知道管道的存在,它們只是從標準檔案描述符中讀取資料和寫入資料。shell必須要完成相關的工作。
1.3.2. 命名管道(FIFO,First In First Out)
命名管道也稱FIFO,從語義上來講,FIFO其實與匿名管道類似,但值得注意:
- 在檔案系統中,FIFO擁有名稱,並且是以裝置特俗檔案的形式存在的;
- 任何程序都可以通過FIFO共享資料;
- 除非FIFO兩端同時有讀與寫的程序,否則FIFO的資料流通將會阻塞;
- 匿名管道是由shell自動建立的,存在於核心中;而FIFO則是由程式建立的(比如
mkfifo
命令),存在於檔案系統中; - 匿名管道是單向的位元組流,而FIFO則是雙向的位元組流;
比如,可以利用FIFO實現單伺服器、多客戶端的應用程式:
有了上面的知識準備,現在可以開始講述,linux多程序併發時,如何控制每次併發的程序數。
2. linux多程序併發數控制
最近小A需要生產2015年全年的KPI資料報表,現在小A已經將生產指令碼寫好了,生產指令碼一次只能生產指定一天的KPI資料,假設跑一次生產指令碼需要5分鐘,那麼:
* 如果是迴圈順序執行,那麼需要時間:5 * 365 = 1825 分鐘,約等於 6 天
* 如果是一次性放到linux後臺併發執行,365個後臺任務,系統可承受不住哦!
既然不能一次性把365個任務放到linux後臺執行,那麼,能不能實現自動地每次將N個任務放到後臺併發執行呢?當然是可以的啦。
#! /bin/bash
source /etc/profile;
# -----------------------------
tempfifo=$$.fifo # $$表示當前執行檔案的PID
begin_date=$1 # 開始時間
end_date=$2 # 結束時間
if [ $# -eq 2 ]
then
if [ "$begin_date" \> "$end_date" ]
then
echo "Error! $begin_date is greater than $end_date"
exit 1;
fi
else
echo "Error! Not enough params."
echo "Sample: sh loop_kpi 2015-12-01 2015-12-07"
exit 2;
fi
# -----------------------------
trap "exec 1000>&-;exec 1000<&-;exit 0" 2
mkfifo $tempfifo
exec 1000<>$tempfifo
rm -rf $tempfifo
for ((i=1; i<=8; i++))
do
echo >&1000
done
while [ $begin_date != $end_date ]
do
read -u1000
{
echo $begin_date
hive -f kpi_report.sql --hivevar date=$begin_date
echo >&1000
} &
begin_date=`date -d "+1 day $begin_date" +"%Y-%m-%d"`
done
wait
echo "done!!!!!!!!!!"
- 第6~22行:比如:
sh loop_kpi_report.sh 2015-01-01 2015-12-01
:$1
表示指令碼入參的第一個引數,等於2015-01-01$2
表示指令碼入參的第二個引數,等於2015-12-01$#
表示指令碼入參的個數,等於2- 第13行用於比較傳入的兩個日期的大小,
\>
是轉義
- 第26行:表示在指令碼執行過程中,如果接收到
Ctrl+C
中斷命令,則關閉檔案描述符1000的讀寫,並正常退出exec 1000>&-;
表示關閉檔案描述符1000的寫exec 1000<&-;
表示關閉檔案描述符1000的讀- trap是捕獲中斷命令
- 第27~29行:
- 第27行,建立一個管道檔案
- 第28行,將檔案描述符1000與FIFO進行繫結,
<
讀的繫結,>
寫的繫結,<>
則標識對檔案描述符1000的所有操作等同於對管道檔案$tempfifo
的操作 - 第29行,可能會有這樣的疑問:為什麼不直接使用管道檔案呢?事實上這並非多此一舉,管道的一個重要特性,就是讀寫必須同時存在,缺失某一個操作,另一個操作就是滯留,而第28行的繫結檔案描述符(讀、寫繫結)正好解決了這個問題
- 第31~34行:對檔案描述符1000進行寫入操作。通過迴圈寫入8個空行,這個8就是我們要定義的後臺併發的執行緒數。為什麼是寫空行而不是寫其它字元?因為管道檔案的讀取,是以行為單位的
- 第37~42行:
- 第37行,
read -u1000
的作用就是讀取管道中的一行,在這裡就是讀取一個空行;每次讀取管道就會減少一個空行 - 第39~41行,注意到第42行結尾的
&
嗎?它表示程序放到linux後臺中執行 - 第41行,執行完後臺任務之後,往檔案描述符1000中寫入一個空行。這是關鍵所在了,由於
read -u1000
每次操作,都會導致管道減少一個空行,當linux後臺放入了8個任務之後,由於檔案描述符1000沒有可讀取的空行,將導致read -u1000
一直處於等待。
- 第37行,
3. 參考資料
- Unix Power Tools
- UNIX系統程式設計手冊
- UNIX管道:https://zh.wikipedia.org/wiki/%E7%AE%A1%E9%81%93_(Unix)