回到：

Linux系列文章
Shell系列文章
Awk系列文章

詳細分析awk欄位分割

awk讀取每一條記錄之後，會將其賦值給$0，同時還會對這條記錄按照預定義變數FS劃分欄位，將劃分好的各個欄位分別賦值給$1 $2 $3 $4...$N，同時將劃分的欄位數量賦值給預定義變數NF。

引用欄位的方式

$N引用欄位：

N=0：即$0，引用記錄本身
0<N<=NF：引用對應欄位
N>NF：表示引用不存在的欄位，返回空字串
N<0：報錯

可使用變數或計算的方式指定要獲取的欄位序號。

awk '{n = 5;print $n}' a.txt
awk '{print $(2+2)}' a.txt   # 括號必不可少，用於改變優先順序
awk '{print $(NF-3)}' a.txt

分割欄位的方式

讀取record之後，將使用預定義變數FS、FIELDWIDTHS或FPAT中的一種來分割欄位。分割完成之後，再進入main程式碼段(所以，在main中設定FS對本次已經讀取的record是沒有影響的，但會影響下次讀取)。

劃分欄位方式(一)：FS或-F

FS或者-F：欄位分隔符

FS為單個字元時，該字元即為欄位分隔符
FS為多個字元時，則採用正則表示式模式作為欄位分隔符
特殊的，也是FS預設的情況，FS為單個空格時，將以連續的空白（空格、製表符、換行符）作為欄位分隔符
特殊的，FS為空字串""時，將對每個字元都進行分隔，即每個字元都作為一個欄位
設定預定義變數IGNORECASE為非零值，正則匹配時表示忽略大小寫(隻影響正則，所以FS為單字時無影響)
如果record中無法找到FS指定的分隔符(例如將FS設定為"\n")，則整個記錄作為一個欄位，即$1和$0相等

# 欄位分隔符指定為單個字元
awk -F":" '{print $1}' /etc/passwd
awk 'BEGIN{FS=":"}{print $1}' /etc/passwd

# 欄位分隔符指定為正則表示式
awk 'BEGIN{FS=" +|@"}{print $1,$2,$3,$4,$5,$6}' a.txt

劃分欄位方式(二)：FIELDWIDTHS

指定預定義變數FIELDWIDTHS按字元寬度分割欄位，這是gawk提供的高階功能。在處理某欄位缺失時非常好用。

用法：

示例1：

# 沒取完的字串DDD被丟棄，且NF=3
$ awk 'BEGIN{FIELDWIDTHS="2 3 2"}{print $1,$2,$3,$4}' <<<"AABBBCCDDDD"
AA BBB CC 

# 字串不夠長度時無視
$ awk 'BEGIN{FIELDWIDTHS="2 3 2 100"}{print $1,$2,$3,$4"-"}' <<<"AABBBCCDDDD"
AA BBB CC DDDD-

# *號取剩餘所有，NF=3
$ awk 'BEGIN{FIELDWIDTHS="2 3 *"}{print $1,$2,$3}' <<<"AABBBCCDDDD"      
AA BBB CCDDDD

# 欄位數多了，則取完字串即可，NF=2
$ awk 'BEGIN{FIELDWIDTHS="2 30 *"}{print $1,$2,NF}' <<<"AABBBCCDDDD"  
AA BBBCCDDDD 2

示例2：處理某些欄位缺失的資料。

如果按照常規的FS進行欄位分割，則對於缺失欄位的行和沒有缺失欄位的行很難統一處理，但使用FIELDWIDTHS則非常方便。

假設a.txt文字內容如下：

ID  name    gender  age  email          phone
1   Bob     male    28   [email protected]     18023394012
2   Alice   female  24   [email protected]  18084925203
3   Tony    male    21   [email protected]    17048792503
4   Kevin   male    21   [email protected]    17023929033
5   Alex    male    18                  18185904230
6   Andy    female  22   [email protected]    18923902352
7   Jerry   female  25   [email protected]  18785234906
8   Peter   male    20   [email protected]     17729348758
9   Steven  female  23   [email protected]    15947893212
10  Bruce   female  27   [email protected]   13942943905

因為email欄位有的是空欄位，所以直接用FS劃分欄位不便處理。可使用FIELDWIDTHS。

# 欄位1：4字元
# 欄位2：8字元
# 欄位3：8字元
# 欄位4：2字元
# 欄位5：先跳過3字元，再讀13字元，該欄位13字元
# 欄位6：先跳過2字元，再讀11字元，該欄位11字元
awk '
BEGIN{FIELDWIDTHS="4 8 8 2 3:13 2:11"}
NR>1{
    print "<"$1">","<"$2">","<"$3">","<"$4">","<"$5">","<"$6">"
}' a.txt

# 如果email為空，則輸出它
awk '
BEGIN{FIELDWIDTHS="4 8 8 2 3:13 2:11"}
NR>1{
    if($5 ~ /^ +$/){print $0}
}' a.txt

劃分欄位方式(三)：FPAT

FS是指定欄位分隔符，來取得除分隔符外的部分作為欄位。

FPAT是取得匹配的字元部分作為欄位。它是gawk提供的一個高階功能。

FPAT根據指定的正則來全域性匹配record，然後將所有匹配成功的部分組成$1、$2...，不會修改$0。

awk 'BEGIN{FPAT="[0-9]+"}{print $3"-"}' a.txt
之後再設定FS或FPAT，該變數將失效

FPAT常用於欄位中包含了欄位分隔符的場景。例如，CSV檔案中的一行資料如下：

Robbins,Arnold,"1234 A Pretty Street, NE",MyTown,MyState,12345-6789,USA

其中逗號分隔每個欄位，但雙引號包圍的是一個欄位整體，即使其中有逗號。

這時使用FPAT來劃分各欄位比使用FS要方便的多。

echo 'Robbins,Arnold,"1234 A Pretty Street, NE",MyTown,MyState,12345-6789,USA' |\
awk '
    BEGIN{FPAT="[^,]*|(\"[^\"]*\")"}
    {
        for (i=1;i<NF;i++){
            print "<"$i">"
        }
    }
'

最後，patsplit()函式和FPAT的功能一樣。

檢查欄位劃分的方式

有FS、FIELDWIDTHS、FPAT三種獲取欄位的方式，可使用PROCINFO陣列來確定本次使用何種方式獲得欄位。

PROCINFO是一個數組，記錄了awk程序工作時的狀態資訊。

如果：

PROCINFO["FS"]=="FS"，表示使用FS分割獲取欄位
PROCINFO["FPAT"]=="FPAT"，表示使用FPAT匹配獲取欄位
PROCINFO["FIELDWIDTHS"]=="FIELDWIDTHS"，表示使用FIELDWIDTHS分割獲取欄位

例如：

if(PROCINFO["FS"]=="FS"){
    ...FS spliting...
} else if(PROCINFO["FPAT"]=="FPAT"){
    ...FPAT spliting...
} else if(PROCINFO["FIELDWIDTHS"]=="FIELDWIDTHS"){
    ...FIELDWIDTHS spliting...
} 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    精通awk系列(8)：awk劃分欄位的3種方式
      
回到：

Linux系列文章

Shell系列文章

Awk系列文章


詳細分析awk欄位分割
awk讀取每一條記錄之後，會將其賦值給$0，同時還會對這條記錄按照預定義變數FS劃分欄位，將劃分好的各個欄位分別賦值給$1 $2 $3 $4...$N，同時將劃分的欄位數量賦值給預定義變數NF。
引用欄位的方式 

  
 

    

    
    maplab系列8：ImuCameraSynchronizer
       
 
 ImuCameraSynchronizer 是用來同步imu和image的。這是任何vio程式必要的一部分，所以這裡單獨拿出來分析一下。 
 首先使用： 
 
  addCameraImage 
   
    把image存入VisualNPipeline中 
    VisualNPipelin 

  
 

    

    
    MongoDB系列8：MongoDB集合的增量更新
      
                    

                    

                    
                    
                    鄧開表同學實戰MongoDB系列文章，非常不錯，贊！大力推薦！本文是第8篇，主要講述MongoD 

  
 

    

    
    政務大資料系列8：政務大資料的安全體系
      
                    

                    

                    
                    
                    政務是個大市場，阿里、騰訊、電信、華為都在賠本賺吆喝。本文作者宇同學是資深從業人士，研發總監，他 

  
 

    

    
    ZooKeeper系列(8)：ZooKeeper伸縮性
      正是   測試   osal   網絡延遲   工作流   link   是我   為什麽   網絡   一、ZooKeeper中Observer
1.1 ZooKeeper角色
經過前面的介紹，我想大家都已經知道了在ZooKeeper集群當中有兩種角色Leader和Follower。Leader可以接受 

  
 

    

    
    廣告行業中那些趣事系列8：詳解BERT中分類器原始碼
      
最新最全的文章請關注我的微信公眾號：資料拾光者。
 
摘要：BERT是近幾年NLP領域中具有里程碑意義的存在。因為效果好和應用範圍廣所以被廣泛應用於科學研究和工程專案中。廣告系列中前幾篇文章有從理論的方面講過BERT的原理，也有從實戰的方面講過使用BERT構建分類模型。本篇從原始碼的角度從整體到區 

  
 

    

    
    redis系列01：源碼安裝redis-3.2.10
      創建   好的   color   netstat   mon   compress   手動   idf   sta   前段時間安裝好的redis，今天用腳本安裝的時候突然出現版本異常的問題，所以更新一篇為大家提供參考
本次安裝在CentOS6.5，采用的redis-3.2.10，最新的redis-4.0 

  
 

    

    
    第七集：Solidity abi欄位說明
       
 
   
 
  Type:方法型別，主要包括functino, constructor, fallback,預設情況下，代表function 
  Constanst:布林值，如果是true指明方法，不會修改合約內部的狀態變數 
  Name：方法名 
  Inputs：方法引數，陣列，陣列 

  
 

    

    
    要求：如果某個欄位=1就立刻顯示，否則10分鐘以後顯示,-----sql語句
       
 
 select a.* FROM
(
SELECT
	*,DATE_ADD(create_date, INTERVAL 10 MINUTE)<SYSDATE() isDelay
FROM
	`car_teams_ord`

) a where IF(iss_price=1||iss_price= 

  
 

    

    
    SQLServer使用：表的欄位型別
       
  
  
 表的欄位型別： 
 char： 固定長度，儲存ANSI字元，不足的補英文半形空格。 nchar： 固定長度，儲存Unicode字元，不足的補英文半形空格 varchar： 可變長度，儲存ANSI字元，根據資料長度自動變化。 nvarchar： 可變長度，儲存Unicode字元，根據資料長度自 

  
 

    

    
    “全棧2019”Java第三十七章：類與欄位
      難度 
初級 
學習時間 
10分鐘 
適合人群 
零基礎 
開發語言 
Java 
開發環境 
 
 JDK v11 
 IntelliJ IDEA v2018.3 
 
文章原文連結 
“全棧2019”Java第三十七章：類與欄位 
下一章 
“全棧2019”Java第三十八章：類與方法 
學習小組 
加 

  
 

    

    
    “全棧2019”Java第四十六章：繼承與欄位
      難度 
初級 
學習時間 
10分鐘 
適合人群 
零基礎 
開發語言 
Java 
開發環境 
 
 JDK v11 
 IntelliJ IDEA v2018.3 
 
文章原文連結 
“全棧2019”Java第四十六章：繼承與欄位 
下一章 
“全棧2019”Java第四十七章：繼承與方法 
學習小組  

  
 

    

    
    演算法優化：最大欄位和，雙指標遍歷(n^2)，分治法(nlogn)，動態規劃(n)
       
  
  
 最大欄位和，有點類似與最長公共子序列，這裡是求連續一段求和最大的一段，比如[-2,11,-4,-4,13,-5,-2]最大求和的連續一段為11,-4,-4,13，和為16. 
 最基本的雙針模型遍歷，兩個指標，分別代表最大和序列的起始和終止,演算法時間複雜度O(n^2) 
 # 以下演算法時 

  
 

    

    
    高併發架構系列：資料庫主從同步的3種一致性方案實現，及優劣比較
       
 在高併發場景下，資料主從同步是必然的方式，除了資料庫主從同步外，還會涉及到分散式環境下的資料同步(文末有介紹~)。 
 今天分享資料庫主從同步解決方案。 
 
資料主從同步的由來 
網際網路的很多業務，特別是在高併發的場景下，基本都是讀遠遠大於寫，如果資料庫讀和寫的壓力都同在一臺主機上，這顯然不太合理。 

  
 

    

    
    Python+OGR庫學習（三）：將含有欄位值的TXT檔案寫入shpfile
       
 
  
  
 程式碼任務 
 已知有一個TXT檔案，每行格式：country_name：X1 Y1,X2 Y2,…Xn,Yn,其中，Xn,Yn指折點座標，把它匯出為shp檔案，TXT如下：  
 程式碼思路 
 1、匯入相關庫包，切換到當前資料夾 2、註冊驅動，建立向量檔案，獲取圖層 3、建立輸出檔案 

  
 

    

    
    記錄：Mysql 修改欄位長度、修改列名、新增列、修改自增主鍵起始值
       
 
 以下轉自https://www.cnblogs.com/yangjinwang/p/5918906.html 
 alter table 表名 modify column 欄位名 型別; 
 例如 
 資料庫中user表 name欄位是varchar(30) 
 可以用 
  
 alter tab 

  
 

    

    
    Glide 系列-1：預熱、Glide 的常用配置方式及其原理
      在接下來的幾篇文章中，我們會對 Android 中常用的圖片載入框架 Glide 進行分析。在本篇文章中，我們先通過介紹 Glide 的幾種常用的配置方式來了解 Glide 的部分原始碼。後續的文中，我們會對 Glide 的原始碼進行更詳盡的分析。 
對於 Glide，相信多數 Android 開發者並不陌生 

  
 

    

    
    SQL筆記二：過濾條件欄位多個取值、模糊匹配和兩個值之間取值、去重
      上一節簡單的總結了單表查詢和多表查詢，以下給大家總結了查詢語句的結構，如下： 
SELECT...FROM...WHERE...GROUP BY...HAVING...ORDER BY...LIMIT... 
本節主要總結下常用的條件欄位的匹配問題，最常見的是“=”，如select * from studen 

  
 

    

    
    python爬蟲系列二：requests-設定headers（3）
      
							
							
							
  1、為什麼要設定headers? 
             在請求網頁爬取的時候，輸出的text資訊中會出現抱歉，無法訪問等字眼，這就是禁止爬取，需要通過反爬機制去解決這個問題。headers是解決requests請求反爬的方法之一，相當於我們進去這個網 

  
 

    

    
    LeetCode——第53題：最大欄位和
      
							
							
							題目：

給定一個整數陣列 nums ，找到一個具有最大和的連續子陣列（子陣列最少包含一個元素），返回其最大和。



示例:

輸入: [-2,1,-3,4,-1,2,1,-5,4], 
輸出: 6 
解釋: 連續子陣列 [4,-1,2,1] 的和最大，為 6