shell基礎---AWK+UNIQ+SORT 統計檔案中某字串出現次數並排序

阿新 • • 發佈：2021-11-22

在伺服器開發中，我們經常會寫入大量的日誌檔案。有時候我們需要對這些日誌檔案進行統計。Linux中我們可以利用以下命令簡單高效的實現這一功能。

需要用到的命令簡介

cat命令
cat命令主要有三大功能
1.一次顯示整個檔案 cat filename
2.建立一個檔案 cat > fileName
3.將幾個檔案合併為一個檔案 cat file1 file2 > file
引數：
-n 或 –number 由 1 開始對所有輸出的行數編號
-b 或 –number-nonblank 和 -n 相似，只不過對於空白行不編號
-s 或 –squeeze-blank 當遇到有連續兩行以上的空白行，就代換為一行的空白行
-v 或 –show-nonprinting

| 管道
管道的作用是將左邊命令的輸出作為右邊命令的輸入
awk 命令
awk 是行處理器，優點是處理龐大檔案時不會出現記憶體溢位或處理緩慢的問題，通常用來格式化文字資訊。awk依次對每一行進行處理，然後輸出。
命令形式 awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file
[-F|-f|-v] 大引數，-F指定分隔符，-f呼叫指令碼，-v定義變數 var=value
’ ’ 引用程式碼塊
BEGIN 初始化程式碼塊，在對每一行進行處理之前，初始化程式碼，主要是引用全域性變數，設定FS分隔符
// 匹配程式碼塊，可以使字串或正則表示式
{} 命令程式碼塊，包含一條或多條命令
;多條命令使用分號分隔
END 結尾程式碼塊，對每一行進行處理後再執行的程式碼塊，主要進行最終計算或輸出
由於篇幅限制，可自行查詢更詳細的資訊。這裡awk命令的作用是從檔案中每一行取出我們需要的字串
sort 命令
sort將檔案的每一行作為一個單位，相互比較，比較原則是從首字元向後，依次按ASCII碼值進行比較，最後將他們按升序輸出。
-b：忽略每行前面開始出的空格字元；
-c：檢查檔案是否已經按照順序排序；
-d：排序時，處理英文字母、數字及空格字元外，忽略其他的字元；
-f：排序時，將小寫字母視為大寫字母；
-i：排序時，除了040至176之間的ASCII字元外，忽略其他的字元；
-m：將幾個排序號的檔案進行合併；
-M：將前面3個字母依照月份的縮寫進行排序；
-n：依照數值的大小排序；
-o<輸出檔案>：將排序後的結果存入制定的檔案；
-r：以相反的順序來排序；
-t<分隔字元>：指定排序時所用的欄位分隔字元；
uniq 命令
uniq 命令用於報告或忽略檔案中的重複行，一般與sort命令結合使用
-c或——count：在每列旁邊顯示該行重複出現的次數；
-d或–repeated：僅顯示重複出現的行列；
-f<欄位>或–skip-fields=<欄位>：忽略比較指定的欄位；
-s<字元位置>或–skip-chars=<字元位置>：忽略比較指定的字元；
-u或——unique：僅顯示出一次的行列；
-w<字元位置>或–check-chars=<字元位置>：指定要比較的字元。
> 命令
> 是定向輸出到檔案,如果檔案不存在，就建立檔案。如果檔案存在，就將其清空
另外 >>是將輸出內容追加到目標檔案中。其他同>

現在我們開始

1 讀入檔案

cat test.log.2017-09-20

執行結果

2 從每一行取出我們需要的字串

cat check_info.log.2017-09-20 | awk -F '(txt=|&client)' '{print $2}'

awk 命令中 -F 指定每一行的分隔符在這裡 ‘(txt=|&client)’是分隔符，它是一個正則表示式。意義是，用’txt=’或’&client’ 作為分隔符
舉例來說下面這行

sdate=2017-09-20 23:59:32&txt=com.ford.fordmobile&client_id=x

會被分割成

sdate=2017-09-20 23:59:32&
com.ford.fordmobile
_id=x

其中第二部分”com.ford.fordmobile”是我所需要的欄位

而’{print$2}’的意思是將每行得到的第二個值打印出來，$0代表獲取的所有值
執行效果如下

3 對行進行排序
先排序是因為去重與統計的 ‘unip’命令只能處理相鄰行

cat check_info.log.2017-09-20 | awk -F '(txt=|&client)' '{print $2}'|sort

執行結果

可以看到相同行已經被排在了一起

4 統計數量與去重

cat check_info.log.2017-09-20 | awk -F '(txt=|&client)' '{print $2}'| sort | uniq -c

uniq -c 中的-c 代表在每列旁邊顯示該行重複出現的次數
執行結果

5 按重複次數排序

cat check_info.log.2017-09-20 | awk -F '(txt=|&client)' '{print $2}'| sort | uniq -c | sort -nr

sort 的 -n：依照數值的大小排序；-r 按照相反順序排列

執行結果

6 將結果輸出到檔案中

cat check_info.log.2017-09-20 | awk -F '(txt=|&client)' '{print $2}'| sort | uniq -c | sort -nr > testfile

可以看到我們當前目錄已有testfile 目錄
用vim 開啟可以看到

link: https://www.cnblogs.com/wangbaihan/p/9262296.html https://www.freesion.com/article/36231327298/

shell基礎---AWK+UNIQ+SORT 統計檔案中某字串出現次數並排序

在伺服器開發中，我們經常會寫入大量的日誌檔案。有時候我們需要對這些日誌檔案進行統計。Linux中我們可以利用以下命令簡單高效的實現這一功能。

python 統計檔案中的字串數目示例

題目：一個txt檔案中已知資料格式為： C4D C4D/maya C4D C4D/su C4D/max/AE 統計每個欄位出現的次數，比如C4D、maya

Go語言統計一個檔案中每個字串出現的次數

技術標籤：Golang演算法golang字串統計一個檔案中每個字串出現的次數 func main(){

統計一個文字檔案中字元的個數//統計檔案中文字的行數

1 //統計一個文字檔案中字元的個數 2 package classwork10; 3 4 import java.io.FileInputStream;

linux shell中統計文字中指定單詞出現的次數

linux shell中統計文字中指定單詞出現的次數 1、測試資料，統計 a.txt中e出現的總次數

python資料處理之如何選取csv檔案中某幾行的資料

前言有些人看到這個問題覺得不是問題，是嘛，不就是df.col[]函式嘛，其實忽略了一個重點，那就是我們要省去把csv檔案全部讀取這個過程，因為如果在面臨億萬級別的大規模資料，得到的結果就是boom，boom，boom。

統計列表中[1,20]出現一次和多次的數

dew=[] import random for _ in range(20): dew.append(random.randrange(1,21)) print(dew) count=[0]*20 for b in dew:

Springboot 解析yml配置檔案中時間字串異常 / Spring 解析YAML檔案原始碼解析

示例程式碼和結果先上demo 配置檔案 mytest: date: 08:00:00 date1: 09:00:00 date2: 10:00:00 date3: 11:00:00

Python用 opencv識別檔案中所有照片出現人臉的圖片（效果很差，可以自己改進，優點速度快）

程式碼： import cv2 import os import numpy as np \'\'\' 用opencv 識別人臉效果太差單獨照片還好手機隨即拍攝的效果太差

向檔案中寫入字串

技術標籤：筆記 #include<iostream> using namespace std; #include<fstream> int main() { char s[100];

用map來統計陣列中各個字串的數量

1.背景想要統計這一個字串陣列中每一個非重複字串的數量，使用map來儲存其key和value。這個需求在實際開發中經常使用到，我以前總是新建一個空陣列來記錄不重複字串，並使用計數器計數，效率低下且麻煩，特此記錄。

讀取檔案，計算字母出現次數和頻率，按順序列印

用BufferedReader類讀取檔案，陣列記錄次數，冒泡法排序，最後列印　 package test01;

統計資料庫欄位和出現次數

技術標籤：資料庫資料庫sql 統計SDSS DR16資料庫中‘Galaxy’類的子分類和各自的個數

【JavaScript練習】陣列中某元素出現的位置和次數

技術標籤：JavaScript練習javascript前端【JavaScript練習】陣列中某元素出現的位置和次數

用Liunx統計檔案行數，切分、對id進行排序，去重（wc,head,sort,uniq）！

技術標籤：liunxshelllinuxvim 如下我們遇到一個檔案2G以上文字編輯相互甩鍋：此時內心很崩潰，但是我們先看一下檔案一共有多少行。

python 實現提取log檔案中的關鍵句子,並進行統計分析

利用python開發了一個提取sim.log 中的各個關鍵步驟中的時間並進行統計的程式：

Linux中統計檔案和目錄數目

思路：管道命令 + 正則表示式 1、執行ls -l命令之後，終端輸出的結果是一行一行的字元，每一行字元對應一個目錄或者是檔案，如果是檔案的話，該行的字串資訊的第一個字元顯示的是“-”，如果是目錄的話，該

shell 指令碼，每日將磁碟資訊按特定時間格式，自動寫入檔案中！

技術標籤：Linuxlinuxshell 例如今天生成的檔案為2040-09-30.log，指令碼： #初始化！

shell 文字處理 cut,sort,uniq,wc

技術標籤：linuxshell data.txt 三個欄位分別為name,age,birthday，以“:”分割 1. cut命令

Shell--指令碼統計檔案行數

技術標籤：linuxshellshelllinux 示例：row_count.sh檔案 awk \'{print NR}\' row_count.sh | tail -n1

shell基礎---AWK+UNIQ+SORT 統計檔案中某字串出現次數並排序

需要用到的命令簡介

現在我們開始

相關推薦