Linux Shell處理文字最常用的工具大盤點

阿新 • • 發佈：2018-12-27

本文將介紹Linux下使用Shell處理文字時最常用的工具：

find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和引數都是最常用和最為實用的；我對shell指令碼使用的原則是命令單行書寫，儘量不要超過2行；如果有更為複雜的任務需求，還是考慮python吧；

find 檔案查詢

查詢txt和pdf檔案

 find . \( -name "*.txt" -o -name "*.pdf" \) -print

正則方式查詢.txt和pdf

  find . -regex  ".*\(\.txt|\.pdf\)$"

–iregex：忽略大小寫的正則

否定引數

查詢所有非txt文字

   find . ! -name "*.txt" -print

指定搜尋深度

打印出當前目錄的檔案（深度為1）

  find . -maxdepth 1 -type f

定製搜尋

按型別搜尋：

find . -type d -print //只列出所有目錄

-type f 檔案 / l 符號連結

按時間搜尋：

-atime 訪問時間 (單位是天，分鐘單位則是-amin，以下類似）

-mtime 修改時間（內容被修改）

-ctime 變化時間（元資料或許可權變化）

最近7天被訪問過的所有檔案：

find . -atime 7 -type f -print

按大小搜尋：

w字 k M G

尋找大於2k的檔案

find . -type f -size +2k

按許可權查詢：

find . -type f -perm 644 -print //找具有可執行許可權的所有檔案

按使用者查詢：

find . -type f -user weber -print// 找使用者weber所擁有的檔案

找到後的後續動作

刪除：

刪除當前目錄下所有的swp檔案：

  find . -type f -name "*.swp" -delete

執行動作（強大的exec）

  find . -type f -user root -exec chown weber {} \; //將當前目錄下的所有權變更為weber

注：{}是一個特殊的字串，對於每一個匹配的檔案，{}會被替換成相應的檔名；

eg：將找到的檔案全都copy到另一個目錄：

  find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;

結合多個命令

tips: 如果需要後續執行多個命令，可以將多個命令寫成一個指令碼。然後 -exec 呼叫時執行指令碼即可；

  -exec ./commands.sh {} \;

-print的定界符

預設使用’\n’作為檔案的定界符；

-print0 使用’\0’作為檔案的定界符，這樣就可以搜尋包含空格的檔案；

grep 文字搜尋

grep match_patten file // 預設訪問匹配行

常用引數

-o 只輸出匹配的文字行 VS -v 只輸出沒有匹配的文字行

-c 統計檔案中包含文字的次數

grep -c “text” filename

-n 列印匹配的行號

-i 搜尋時忽略大小寫

-l 只打印檔名

在多級目錄中對文字遞迴搜尋(程式設計師搜程式碼的最愛）：

grep “class” . -R -n

匹配多個模式

grep -e “class” -e “vitural” file

grep輸出以\0作為結尾符的檔名：（-z）

grep “test” file* -lZ| xargs -0 rm

xargs 命令列引數轉換

xargs 能夠將輸入資料轉化為特定命令的命令列引數；這樣，可以配合很多命令來組合使用。比如grep，比如find；

將多行輸出轉化為單行輸出

cat file.txt| xargs

\n 是多行文字間的定界符

將單行轉化為多行輸出

cat single.txt | xargs -n 3

-n：指定每行顯示的欄位數

xargs引數說明

-d 定義定界符（預設為空格多行的定界符為 \n）

-n 指定輸出為多行

-I {} 指定替換字串，這個字串在xargs擴充套件時會被替換掉,用於待執行的命令需要多個引數時

eg：

cat file.txt | xargs -I {} ./command.sh -p {} -1

-0：指定\0為輸入定界符

eg：統計程式行數

find source_dir/ -type f -name “*.cpp” -print0 |xargs -0 wc -l

sort 排序

欄位說明：

-n 按數字進行排序 VS -d 按字典序進行排序

-r 逆序排序

-k N 指定按第N列排序

eg：

sort -nrk 1 data.txt

sort -bd data // 忽略像空格之類的前導空白字元

uniq 消除重複行

消除重複行

sort unsort.txt | uniq

統計各行在檔案中出現的次數

sort unsort.txt | uniq -c

找出重複行

sort unsort.txt | uniq -d

可指定每行中需要比較的重複內容：-s 開始位置 -w 比較字元數

用tr進行轉換

通用用法

echo 12345 | tr ‘0-9’ ‘9876543210’ //加解密轉換，替換對應字元

cat text| tr ‘\t’ ‘ ‘ //製表符轉空格

tr刪除字元

cat file | tr -d ‘0-9’ // 刪除所有數字

-c 求補集

cat file | tr -c ‘0-9’ //獲取檔案中所有數字

cat file | tr -d -c ‘0-9 \n’ //刪除非數字資料

tr壓縮字元

tr -s 壓縮文字中出現的重複字元；最常用於壓縮多餘的空格

cat file | tr -s ‘ ‘

字元類

tr中可用各種字元類：

alnum：字母和數字

alpha：字母

digit：數字

space：空白字元

lower：小寫

upper：大寫

cntrl：控制（非可列印）字元

print：可列印字元

使用方法：tr [:class:] [:class:]

eg: tr ‘[:lower:]’ ‘[:upper:]’

cut 按列切分文字

擷取檔案的第2列和第4列：

cut -f2,4 filename

去檔案除第3列的所有列：

cut -f3 –complement filename

-d 指定定界符：

cat -f2 -d”;” filename

cut 取的範圍

N- 第N個欄位到結尾

-M 第1個欄位為M

N-M N到M個欄位

cut 取的單位

-b 以位元組為單位

-c 以字元為單位

-f 以欄位為單位（使用定界符）

eg:

cut -c1-5 file //列印第一到5個字元

cut -c-2 file //列印前2個字元

paste 按列拼接文字

將兩個文字按列拼接到一起;

cat file1

1

2

cat file2

colin

book

paste file1 file2

1 colin

2 book

預設的定界符是製表符，可以用-d指明定界符

paste file1 file2 -d “,”

1,colin

2,book

wc 統計行和字元的工具

wc -l file // 統計行數

wc -w file // 統計單詞數

wc -c file // 統計字元數

sed 文字替換利器

首處替換

seg ‘s/text/replace_text/’ file //替換每一行的第一處匹配的text

全域性替換

seg ‘s/text/replace_text/g’ file

預設替換後，輸出替換後的內容，如果需要直接替換原檔案,使用-i：

seg -i ‘s/text/repalce_text/g’ file

移除空白行：

sed ‘/^$/d’ file

變數轉換

已匹配的字串通過標記&來引用.

echo this is en example | seg ‘s/\w+/[&]/g’

$>[this] [is] [en] [example]

子串匹配標記

第一個匹配的括號內容使用標記 \1 來引用

sed ‘s/hello$[0-9]$/\1/’

雙引號求值

sed通常用單引號來引用；也可使用雙引號，使用雙引號後，雙引號會對錶達式求值：

sed ‘s/$var/HLLOE/’

當使用雙引號時，我們可以在sed樣式和替換字串中指定變數；

eg:

p=patten

r=replaced

echo “line con a patten” | sed “s/$p/$r/g”

$>line con a replaced

其它示例

字串插入字元：將文字中每行內容（PEKSHA）轉換為 PEK/SHA

sed ‘s/^.\{3\}/&\//g’ file

awk 資料流處理工具

awk指令碼結構

awk ‘ BEGIN{ statements } statements2 END{ statements } ‘

工作方式

1、執行begin中語句塊；

2、從檔案或stdin中讀入一行，然後執行statements2，重複這個過程，直到檔案全部被讀取完畢；

3、執行end語句塊；

print 列印當前行

使用不帶引數的print時，會列印當前行;

echo -e “line1\nline2” | awk ‘BEGIN{print “start”} {print } END{ print “End” }’

print 以逗號分割時，引數以空格定界;

echo | awk ‘ {var1 = “v1” ; var2 = “V2″; var3=”v3”; \

print var1, var2 , var3; }’

$>v1 V2 v3

使用-拼接符的方式（””作為拼接符）;

echo | awk ‘ {var1 = “v1” ; var2 = “V2″; var3=”v3″; \

print var1”-“var2”-“var3; }’

$>v1-V2-v3

特殊變數： NR NF $0 $1 $2

NR:表示記錄數量，在執行過程中對應當前行號；

NF:表示欄位數量，在執行過程總對應當前行的欄位數；

$0:這個變數包含執行過程中當前行的文字內容；

$1:第一個欄位的文字內容；

$2:第二個欄位的文字內容；

echo -e “line1 f2 f3\n line2 \n line 3″ | awk ‘{print NR”:”$0″-“$1”-“$2}’

列印每一行的第二和第三個欄位：

awk ‘{print $2, $3}’ file

統計檔案的行數：

awk ‘ END {print NR}’ file

累加每一行的第一個欄位：

echo -e “1\n 2\n 3\n 4\n” | awk ‘BEGIN{num = 0 ;

print “begin”;} {sum += $1;} END {print “==”; print sum }’

傳遞外部變數

var=1000

echo | awk ‘{print vara}’ vara=$var # 輸入來自stdin

awk ‘{print vara}’ vara=$var file # 輸入來自檔案

用樣式對awk處理的行進行過濾

awk ‘NR < 5’ #行號小於5

awk ‘NR==1,NR==4 {print}’ file #行號等於1和4的打印出來

awk ‘/linux/’ #包含linux文字的行（可以用正則表示式來指定，超級強大）

awk ‘!/linux/’ #不包含linux文字的行

設定定界符

使用-F來設定定界符（預設為空格）

awk -F: ‘{print $NF}’ /etc/passwd

讀取命令輸出

使用getline，將外部shell命令的輸出讀入到變數cmdout中；

echo | awk ‘{“grep root /etc/passwd” | getline cmdout; print cmdout }’

在awk中使用迴圈

for(i=0;i<10;i++){print $i;}

for(i in array){print array[i];}

eg:

以逆序的形式列印行：(tac命令的實現）

seq 9| \

awk ‘{lifo[NR] = $0; lno=NR} \

END{ for(;lno>-1;lno–){print lifo[lno];}

} ‘

awk實現head、tail命令

head:

awk ‘NR<=10{print}’ filename

tail:

awk ‘{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){ \

print buffer[i %10]} } ‘ filename

列印指定列

awk方式實現：

ls -lrt | awk ‘{print $6}’

cut方式實現

ls -lrt | cut -f6

列印指定文字區域

確定行號

seq 100| awk ‘NR==4,NR==6{print}’

確定文字

列印處於start_pattern 和end_pattern之間的文字；

awk ‘/start_pattern/, /end_pattern/’ filename

eg:

seq 100 | awk ‘/13/,/15/’

cat /etc/passwd| awk ‘/mai.*mail/,/news.*news/’

awk常用內建函式

index(string,search_string):返回search_string在string中出現的位置

sub(regex,replacement_str,string):將正則匹配到的第一處內容替換為replacement_str;

match(regex,string):檢查正則表示式是否能夠匹配字串；

length(string)：返回字串長度

echo | awk ‘{“grep root /etc/passwd” | getline cmdout; print length(cmdout) }’

printf 類似c語言中的printf，對輸出進行格式化

eg：

seq 10 | awk ‘{printf “->%4s\n”, $1}’

迭代檔案中的行、單詞和字元

1、迭代檔案中的每一行

while 迴圈法

while read line;

do

echo $line;

done < file.txt

改成子shell:

cat file.txt | (while read line;do echo $line;done)

awk法：

cat file.txt| awk ‘{print}’

2、迭代一行中的每一個單詞

for word in $line;

do

echo $word;

done

3、迭代每一個字元

${string:start_pos:num_of_chars}：從字串中提取一個字元；(bash文字切片）

${#word}:返回變數word的長度

for((i=0;i<${#word};i++))

do

echo ${word:i:1);

done

Linux Shell處理文字最常用的工具大盤點

本文將介紹Linux下使用Shell處理文字時最常用的工具： find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和引數都是最常用和最為實用的；我對shell指令碼使用的原則是命令單行書寫，儘量不要超過2行；如果有更為複雜的任務需求，還是考慮

Linux Shell 編程教程常用命令

pos post lin blog 常用教程 OS body linu 概述：一： 1. 2. 3. 二： 1. 2. 3. 三： 1. 2. 3. 四： 1. 2. 3. 五： 1. 2. 3. 六： 1. 2. 3.

Linux Shell處理文本的命令大全

stat 語句塊 grep文本搜索 nbsp done 符號格式 rgs chown 本文將介紹Linux下使用Shell處理文本時最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和參數都是最常用

Elasticsearch常用最全最常用工具清單

1、題記工欲善其事必先利其器，ELK Stack的學習和實戰更是如此，特將工作中用到的“高效”工具分享給大家。希望能借助“工具”提高開發、運維效率！ 2、工具分類概覽 2.1 基礎類工具 1、Head外掛 1）功能概述： 2、Kibana工具除了支援

嚴選 | Elasticsearch史上最全最常用工具清單【轉】

1、題記工欲善其事必先利其器，ELK Stack的學習和實戰更是如此，特將工作中用到的“高效”工具分享給大家。希望能借助“工具”提高開發、運維效率！ 2、工具分類概覽 2.1 基礎類工具 1、Head外掛 1）功能概述： ES叢集狀態檢視、索引資料檢視、ES DSL實現（增、刪、改、查操作）比較實用的地方

Linux 運維人最常用 150 個命令彙總

Linux 運維人最常用 150 個命令彙總命令功能說明線上查詢及幫助命令 (2 個) man 檢視命令幫助，命令的詞典，更復雜的還有 in

linux shell將文字檔案轉換為html檔案

寫了個指令碼，簡單的將文字檔案轉換為html檔案。 1、使用sed命令，具體指令碼如下 1 #! /bin/bash 2 3 cat << END 4 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTM

shell處理日誌檔案常用命令

學會用shell分析日誌只要一上午！！！很多地方分享了日誌分析的shell指令碼，但是基本沒說每個命令符的具體含義，學習成本還是很高，在這裡總結下，方便大家快速入門。 1、在Windows下的使用者要使用shell命令符的話請先安裝cygwin，安裝方法自

Linux下記憶體洩漏定位常用工具介紹

寫在前面：本人只是一個linux開發新手，對linux下開發充滿熱情，前段時間接手一個linux下程式效能優化的工作，自己在整個過程中零零散散的總結了一些經驗，特別把查詢和定位記憶體洩漏方面的經驗寫下來，尤其是使用的幾個開源工具，希望對別人有用，也等於自己做做筆記，便於以後再次使用或學習。整個過程主要有以下幾

Linux Shell的18條常用命令整理

man 進制文本 linux發行版本不出工作方式 ssi 統計字數隱藏文件 1、 ls: 類似於dos下的dir命令 ls最常用的參數有三個：-a -l -F。 ls –a Linux上的文件以.開頭的文件被系統視為隱藏文件，僅用l

百度2013-2018年演算法大盤點，史上最全演算法大盤點。

究竟2013年到2018年百度頒佈了多少條針對於SEO的演算法？今天就讓我們從前到後逐漸瞭解百度的這些演算法。熟悉百度演算法，這對於SEOer會有很大的指導作用！只有我們瞭解了百度演算法，明白了百度相關規則才能夠更好的做好百度SEO。時間：2013年2月19日

快收藏！史上最全的 Linux Shell 文字處理工具集錦

本文將介紹Linux下使用Shell處理文字時最常用的工具：find、grep、xargs、so

Linux Shell 文字處理工具集錦(重點推薦)

依稀記得某人曾今問過關於linux中的高階用法，當時覺得一臉懵逼，後來才發現，所謂的高階用法，無非是可以被python替換的shell基礎指令碼，及處理10GB資料量以下的linux基礎命令。現在看到了就整理了一下。 1.shell特殊符號

最全面的Java字節byte操作,處理Java基本數據的轉換及進制轉換操作工具,流媒體及java底層開發項目常用工具類

進制 string 常用工具類 cat i++ logs 指定位置 tput off 前言：用於處理Java基本數據的轉換及進制轉換操作工具一、實現功能 1、int預byte互轉 2、int與byte[]互轉 3、short與byte互轉 4、short與byte[]互轉

Linux Shell 文本處理工具集錦

12c 程序員常用忽略忽略大小寫第一個 rgs del num 本文將介紹Linux下使用Shell處理文本時最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和參數都是最常用和最為實用的

linux—shell編程之數組和字符串處理工具

arr 跳過 set 一個一個空格 png 取字符串 read alt 數組：存放多個元素的連續內存空間。　　聲明數組：bash-4以後支持除默認的0,1,2……還可以自定義索引格式，此類數組稱之為“關聯數組”　　　　　　聲明索引數組：declare -a NAME

大資料線上分析處理和常用工具

大資料線上分析處理的特點 . 資料來源源不斷的到來；資料需要儘快的得到處理，不能產生積壓；處理之後的資料量依然巨大，仍然後TB級甚至PB級的資料量；處理的結果能夠儘快的展現；以上四個特點可以總結為資料的收集->資料的傳輸->資料的處理-&g

Linux中sed文字處理工具原理及使用

Sed是什麼？ Sed是一種非互動式的流編輯器，可動態編輯檔案；流編輯器則會在編輯器處理資料之前基於預先提供的一組規則來編輯資料流 Sed本身是一個管道命令，可以分析 standard input 的，主要是用來分析關鍵字的使用、統計等，此外還可以將資料進行替換、刪除、選中、選取

學習筆記之shell的文字處理工具

1.比較檔案的不同diff，comm，cmp 首先建立兩個檔案。內容如下 <span style="font-size:18px;">[[email protected] Practice]# cat Example1 abc def [[email

Linux--Shell指令碼逐行讀文字處理並curl傳送post請求json格式等問題

問題：Shell指令碼逐行讀取文字，字串分割，Curl傳送Post請求Json格式等相關問題在linux中使用curl傳送一個post請求時，帶有json的資料，在傳送時發現json中的變數沒有解析出來: curl -d '{"Pin": "${line}"}' -H"

Linux Shell處理文字最常用的工具大盤點

本文將介紹Linux下使用Shell處理文字時最常用的工具：

find 檔案查詢

定製搜尋

找到後的後續動作

-print的定界符

grep 文字搜尋

xargs 命令列引數轉換

sort 排序

uniq 消除重複行

用tr進行轉換

cut 按列切分文字

paste 按列拼接文字

wc 統計行和字元的工具

sed 文字替換利器

awk 資料流處理工具

迭代檔案中的行、單詞和字元

相關推薦