1. 程式人生 > >12文本處理工具sed

12文本處理工具sed

還得 tex 部分匹配 reg 引用變量 擴展正則 奇數 區別 -a

文本處理的工具sed

Stream EDitor, 行編輯器

sed是一種流編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩沖區中,稱為“模式空間”(pattern space),接著用sed命令處理緩沖區中的內容,處理完成後,把緩沖區的內容送往屏幕。然後讀入下行,執行下一個循環
如果沒有使諸如‘D’ 的特殊命令,那會在兩個循環之間清空模式空間,但不會清空保留空間。這樣不斷重復,直到文件末尾。文件內容並沒有改變,除非你使用重定向存儲輸出。
功能:主要用來自動編輯一個或多個文件,簡化對文件的反復操作,編寫轉換程序等
參考: http://www.gnu.org/software/sed/manual/sed.html

sed工具

用法:

sed [option]... ‘script‘ inputfile...

常用選項:

-n 不輸出模式空間內容到屏幕,即不自動打印
-e 多點編輯
-f /PATH/SCRIPT_FILE inputfile:從指定文件中讀取script來對後面的inputfile進行處理
-r 支持使用擴展正則表達式
-i 直接個修改原文件,批量,不備份(比較危險,不建議這麽使用)
-i.bak 備份文件並原處編輯,相當於把修改後的內容存到原文件中修改它,把沒有修改之前的原文件加個.bak後綴備份一份在原處。(註意使用的時候是相當於把sed要輸出到標準輸出的內容重定向到原文件中,因此不要用-n選項和p命令)

script格式:

‘地址命令‘

地址定界:

(1) 不給地址:對全文進行處理
(2) 單地址:
#:指定的行,$:最後一行
/regular expression/:被此處模式所能夠匹配到的每一行,註意它是正則表達式
(3) 地址範圍:
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
(4) ~:步進
1~2 奇數行
2~2 偶數行

編輯命令:

d 刪除模式空間匹配的行,並立即啟用下一輪循環
p 打印當前模式空間內容,追加到默認輸出之後
a [\]text 在指定行後面的下一行追加文本,支持使用\n實現多行追加
i [\]text 在行前面的前一行插入文本
c [\]text 替換當前行為單行或多行文本
w /path/file 保存模式匹配的行至指定文件

r /path/file 讀取指定文件的文本至模式空間中匹配到的行後
= 為模式空間中的行打印行號:註意它也用在地址定界後面,在每一行的前面一行打印出來行號,後面跟上p命令無效,要分成兩個地址命令才可,註意如果分成兩個了 匹配的地址定界一定也要寫上並相同。
! 模式空間中匹配行取反處理:註意它用在地址定界後面

  • 註意:w相當於重定向\> ,但那時要註意重定向的時候要寫-n p,而w不需要
    例如:
    sed ‘1,10w filename‘ Originalfile 
    cat Originalfile |sed -n ‘1,10p‘ >filename

s/// 查找替換,支持使用其它分隔符,s@@@,s

  • 替換標記:
    g 行內全局替換,和vim相同,如果不加g只替換每一行第一個搜索到的partern
    p 顯示替換成功的行
    w /PATH/FILE 將替換成功的行保存至文件中

需要註意的點:

  1. sed命令默認是每一個匹配的行找到之後都會打印一遍,用-n選項取消默認打印(寫在script外面),用p命令控制打印(寫在script裏面的命令裏)。
    要註意如果沒有-n選項,但後面有命令處理的的話,默認則是處理當模式空間行之後再打印當前模式空間的行,比如d命令就會刪除當前行,刪除之後再打印也是空行,就相當於此行不打印了。
    例子:
    sed ‘‘ passwd : 相當於把passwd顯示一遍
    sed ‘p‘ passwd: 相當於把passwd每行顯示兩邊
    swd -n ‘p‘ passwd : 相當於和第一個一樣,每一行打印一遍
  2. 它要用單引號引起來,並前面是地址定界,後面是命令
  3. sed命令的一個script裏面可以跟多個地址命令,中間用分號;隔開。其執行的時候的邏輯是從左往右一個分號一個分號執行。
    先判斷第一個分號內的,當前模式空間的行是否符合地址定界,符合便執行命令,然後判斷後一個分號內的,當前行是否屬於其地址定界,然後決定是否執行命令。
    相當於對一行進行多次處理,
    當然sed也可以在每個script前面加上-e進行多個script的編輯,和這個沒有區別
    它處理過程都是針對一行判斷所有腳本的地址定界和命令,而不是先從頭搜索到尾執行一個script, 然後從頭到尾再執行另一個script。
  4. sed支持標準輸入,因此可以用管道,也可用xargs將每一個文件都放到參數位置來進行多個文件的相同的處理
  5. !命令用在地址定界的後面,表示非
  6. i.bak 執行的時候相當於是把本來要顯示在默認輸出的內容存入並覆蓋掉原文件中,因此如果要修改原文件內容,前面不要加-n ,命令裏面也不要加p.
  7. sed中地址定界的模式匹配範圍,它是從匹配到前面partern的行然後到匹配到後面partern的行給選中,然後後面的內容再從匹配到前面partern的行到匹配到後面partern的行給選中,一直到最後。如果只匹配到前面的partern的行,到最後沒匹配到包含後面的partern的行,則會把前面partern的行後面的行全部當做匹配到的地址定界的行。
  8. 追加文本的a i c 後面可以用反斜線界定輸入起始範圍,這樣後面最開始輸入的的空格也能追加進去了,可以用\n 換行。 如果想要追加變量內的內容,需要在變量外面加三個單引號,然後變量還得用$var的$符號給引用。但是命令結果不支持,最好用變量先存入命令結果,然後引用變量即可。
  9. 一定要註意重定向是把要打印到屏幕的顯示內容存到文件中,就想i i.bak命令本質就是重定向,而w命令雖然本質也是重定向,但是只管匹配到的行,而且忽略sed打印不打印-n 和p 選項。需要謹記
  10. 註意替換命令的三個///都需要加上,不能缺少任何一個,後面可以跟g之後再跟其他的命令比如p兩個同時。如果用擴展的正則表達式前面的選項要加上-r(也可以控制地址定界正則表達式)

重中之重復習:

  • 除了find的regex需要全部路徑匹配之外,sed ,vim,grep,locate都只需要部分匹配(包含或者含有)即可。
  • 註意vim的查找和替換與sed裏面的查找替換非常類似
  • 但是註意sed如果替換的並且打印的話,它打印的是整個行,因此如果目的是為了取其中一部分內容,則替換的時候最好把整行給替換,要多用.*,[partern]*等匹配到整行然後分組(尤其用了後向引用的時候),這樣打印的時候才不會留下某些不被替換的部分。(有點類似整行全部匹配的find -regex 方式,但這裏sed其原理並非是全部匹配,只是為了我們的目的取其中一部分打印出來,為了不留其他字符,才這樣整行替換的做法)
  • 同時從例子中可以看出,多次對一行處理的時候從左往右(-e或者;),然後處理後的結果重新存入模式空間當做原來的內容的當前行,後面繼續處理的時候一定要註意地址定界匹配(行號或者模式匹配),不然會匹配到其他行或者其他問題。
  • 搜索替換中可用&符號替換s///,中前面搜索中的所有內容,不需要加\。
    例子:
1在某一行後面添加內容: sed -r ‘/要匹配的行/s@(.*)@\1 要添加的內容@‘
2在某一行中間添加內容: sed -r ‘/要匹配的行/s@^(pattern1)(pattern2)$@\1 要添加的內容 \2@‘
3找出基名和目錄名: 
echo /data/scripts/ttt/ | sed -nr ‘s@(^.*/)([^/]+)/?$@\1@p‘ 目錄名
echo /data/scripts/ttt/ | sed -nr ‘s@(^.*/)([^/]+)/?$@\2@p‘ 基名
echo /data/scripts/ttt/ | sed -r ‘s@(^.*)/([^/]+)/?$@\1@‘ 目錄名
echo /data/scripts/ttt/ | sed -r ‘s@(^.*)/([^/]+)/?$@\2@‘ 基名
4找出ipv4地址
ifconfig ens33 | sed -nr ‘2s/.*inet //p‘ | sed -r ‘s/ .*//‘
或者 
11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e ‘2s/.*inet //p‘ -e ‘2s/ .*//p‘  
192.168.36.102  netmask 255.255.255.0  broadcast 192.168.36.255
192.168.36.102
11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e ‘2s/.*inet //‘ -e ‘2s/ .*//p‘  
192.168.36.102
11:57[root@centos7 /data]# ifconfig ens33 | sed -nr  ‘2s/.*inet //p ; 2s/ .*//p‘ 
192.168.36.102  netmask 255.255.255.0  broadcast 192.168.36.255
192.168.36.102
11:56[root@centos7 /data]# ifconfig ens33 | sed -nr  ‘2s/.*inet // ; 2s/ .*//p‘  
192.168.36.102
或者搜索替代:
12:02[root@centos7 /data]# ifconfig ens33 | sed -nr  ‘2s/^[^0-9]*([0-9.]+).*/\1/p‘
192.168.36.102

附加:ifconfig中的網卡名修改,需要改/boot/grub2/grub.cfg 文件中的 linux16這兩行的最後都加上 net.ifnames=0 ,便可將centos7中的 ens33 改為eth0

12:27[root@centos7 /data]# sed -nr ‘/linux16/p‘ /boot/grub2/grub.cfg
    linux16 /vmlinuz-3.10.0-957.el7.x86_64 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet LANG=en_US.UTF-8 net.ifnames=0
    linux16 /vmlinuz-0-rescue-77888ea49ac54db891160345c9275da3 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet net.ifnames=0
12:27[root@centos7 /data]# sed -r -i.bak ‘/linux16/s/.*/& net.ifnames=0/‘ /boot/grub2/grub.cfg

Sed更多用法

P: 打印模式空間開端至\n內容,並追加到默認輸出之前
h: 把模式空間中的內容覆蓋至保持空間中
H:把模式空間中的內容追加至保持空間中
g: 從保持空間取出數據覆蓋至模式空間
G:從保持空間取出內容追加至模式空間
x: 把模式空間中的內容與保持空間中的內容進行互換
n: 讀取匹配到的行的下一行覆蓋至模式空間
N:讀取匹配到的行的下一行追加至模式空間
d: 刪除模式空間中的行
D:如果模式空間包含換行符,則刪除直到第一個換行符的模式空間中的文本,並不會讀取新的輸入行,而使用合成的模式空間重新啟動循環。如果模式空間不包含換行符,則會像發出d命令那樣啟動正常的新循環

自己測試一下結果:

sed -n ‘n;p‘ FILE
sed ‘1!G;h;$!d‘ FILE
sed‘N;D’ FILE
sed ‘$!N;$!D‘ FILE
sed ‘$!d‘ FILE
sed ‘G’ FILE
sed ‘g’ FILE
sed ‘/^$/d;G’ FILE
sed ‘n;d‘ FILE
sed -n ‘1!G;h;$p‘ FILE

12文本處理工具sed