grepによるパターンの検索

grep コマンドの基本形式は, grep string fileです。 fileで指定したファイルの中から string に一致する文字列を含む行を探して表示します。

grepをフィルタにする

grep コマンドはフィルタとして使用できます。この場合 file を指定せず、標準入力の中から探します。

例えば、 last というコマンドは、そのシステムの過去のログイン情報を表示します。この中から自分に関する情報を取り出すには。

sw99% last | grep 99ss999
99ss999 console      Sun Dec  5 11:11   ログイン中です   
....

とすればいいわけです。

指定文字列を含まない行の検索をするには、-v オプションを使います。 shutdown を除いた過去のログイン情報を表示してみましょう。

sw99% last | grep -v shutdown
....

grepの詳細

特殊な文字

grep コマンドにとっての特殊文字の中には、 Cシェルにとっても特殊な意味を持つ文字があります。このため、バックスラッシュ（￥）でエスケープするか、シングルクォート（’）で囲んでやる必要があります。

行の頭

サーカムフレックス（＾）は行頭を表します。 Cシェルの例題で作成した friends というファイルを使って練習しましょう。

sw99% cd ~/core-info
sw99% ls
friends hello
sw99% cat friends
Tsutomu
Atsushi
Mariko
...
sw99% grep '^A' friends
Atsushi
...

行の終わり

また、ドル記号（＄）は行の終わりを表します。

sw99% grep 'ko$' friends
Mariko
...

任意の文字との一致

ピリオド（．）は任意の 1文字と一致します。（Cシェルコマンドラインでの？に相当します。）例えば、 ^...t とすると、先頭から４文字めが t であるということになります。

sw99% grep '^...t' friends
Tsutomu
...

繰り返し

アスタリスク（＊）が文字またはパターンの後ろについたときは、 「その文字またはパターンが 0 回以上任意回数繰り返される」と解釈します。 0 回も許されるので、注意が必要です。

/usr/dict/words には英語のスペルチェック用の辞書があります。これを使ってパターンマッチングの練習をしてみましょう。例えば "n" が 1文字以上続いた後に m が来る単語を検索するには、次のようにします。

sw99% grep 'nn*m' /usr/dict/words 
cornmeal
cottonmouth
....

また、 "o" が 2文字以上続いた後に p が来る単語を検索するには、 grep 'ooo*p' /usr/dict/words のようにします。

ドル記号やアスタリスクなどの特殊文字を含む行を検索するには、バックスラッシュ（\,￥）を付けてエスケープします。

[]　...　いくつかの文字のうちどれか一つ

大括弧 [ ] でかこむとその中の 1文字と一致する文字を検索します。

sw99% grep '^[ab][ab][ab]' /usr/dict/words 
aback
...
babysitting

サーカムフレックス（＾）が大括弧の中にあると、その後の文字と一致しないという意味になります。

sw99% grep '^[^a-z]q' /usr/dict/words 
Aquarius
...

スペースを含む文字列を検索する時には、検索文字列全体をダブルクォート（"）で囲みます。

grep の検索パターン要素をまとめると次のようになります。

^ 行頭
$ 行末
. 任意の1文字
[...] 大括弧の中の任意の 1文字と一致する 1文字
[^...] 大括弧の中の任意の 1文字と一致しない 1文字
* 直前の文字または正規表現（パターン）の 0回以上の繰り返し
.* 0文字以上の任意の文字列
￥(\) エスケープ（次の文字の特別な意味をなくす）

^	行頭
$	行末
.	任意の1文字
[...]	大括弧の中の任意の 1文字と一致する 1文字
[^...]	大括弧の中の任意の 1文字と一致しない 1文字
*	直前の文字または正規表現（パターン）の 0回以上の繰り返し
.*	0文字以上の任意の文字列
￥(\)	エスケープ（次の文字の特別な意味をなくす）

練習問題

last から shutdown だけでなく reboot も取り除いて表示しなさい。
/usr/dict/words の中から数字の入った単語を取り出しなさい。
/usr/dict/words の中から a で始まって b で終わる単語を取り出しなさい。
自分宛のメールは /var/mail/99ss999 (自分のIDに変える) に入っています。このファイルをメールスプールと呼びます。また、１通のメールは 'From ' (Fromと空白) で始まる行から始まります。これを、ここではメールセパレータと呼ぶことにします。
メールスプールから、メールセパレータを取り出し表示しなさい。（メールツールの表示と比較してください）
メールセパレータに表示されるメールアドレスは「本当の」送信人です。これは、時には自動転送するプログラムが付ける名前であったりします。「名義上」の送信人は 'From: ' で始まる行に書いてあります。
メールスプールから、名義上の送信人の行を取り出して表示しなさい。（メールツールの表示と比較してください）

宿題

次回の授業で awk によるデータ処理を勉強します。この時に使うデータとして、１週間の「こづかい帳」をつけて来てください。「こづかい帳」の形式は以下のようにしてください。

日付事項分類金額
1206 start in 30000
1206 lunch eat 400
1206 socks other 500
1206 dinner eat 500
1207 bank in 5000
...
...
日付は４桁の数字、事項は簡単な英語(ローマ字)、分類は in(収入) eat(食費) other(その他) 金額は円。各コラムは１つ以上のスペース又はタブで区切る。また、事項の中にスペースが入ると混同するのでスペースは入れないこと。（必要な場合は - または _ で代用）
「こづかい帳」は各自のパソコンに作成して、メールや FTP を使ってワークステーションへ転送してください。（どうしてもできなければ、紙にメモしてワークステーションで作成してもかまいません）
データの正確さは問いません。プライバシーに関するデータは必要ありません。(デート費用とか、、、)
パソコンで awk の勉強をしたい人は、 GNU awk をインストールしてください。インストール方法はファイルとディレクトリの付録を参照のこと。

日付	事項	分類	金額
1206	start	in	30000
1206	lunch	eat	400
1206	socks	other	500
1206	dinner	eat	500
1207	bank	in	5000
...
...