2013/07/30

awk による正規表現にマッチした部分の抜き出し

入力行に "running""stopping""stopped""pendding" のいずれかの単語が含まれる場合に その単語を抽出したい場合。
awk (1) の sub()gsub() 組み込み関数では 後方参照ができないので マッチしたパターンに応じた変換を一度に行う事ができず、 それぞれのパターンにマッチングさせて処理をするしかない。

    awk '
        /^INSTANCE.*running/{
            print running;
        }
        /^INSTANCE.*stopping/{
            print stopping;
        }
        /^INSTANCE.*stopped/{
            print stopped;
        }
        /^INSTANCE.*pending/{
            print pending;
        }
    '
    
しかしこれではあまりにも悲しいのでマニュアルをじっくりと調べた所、 組み込み関数 match() で正規表現にマッチ処理を行うと 組み込み変数 RSTART にマッチした文字の位置、 RLENGTH にマッチした文字列の長さが設定されるので 組み込み関数 substr() と併用する事で マッチした部分を抽出する事ができる事に気がついた。
    awk '
        /^INSTANCE/{
            if(match($0, /running|stopping|stopped|pending/))
                print substr($0, RSTART, RLENGTH);
            if(match($0, /ec2.*\.amazonaws\.com/))
                print substr($0, RSTART, RLENGTH);
        }
    '
    
awk (1) で正規表現によるパターン抽出を行う場合に便利だと思います。

文字列はあくまでも例であって特別な意味を持っていません。
万が一類似する文字列があった場合でもそれは偶然の一致です。 ぐ、偶然ですからねっ(汗


Copyright © 2008-2020 Mitzyuki IMAIZUMI. All rights reserved.