データの加工をする際に、先輩に教えて頂いた正規表現がすごく便利だったので、
何回かに分けて、少し詳しく学んでみることにしました。
僕はテキストエディタで置換して、データを加工する事が多いので、今回はエディタで正規表現を行っていきます。
テキストエディタはフリーのサクラエディタを使います。
正規表現(せいきひょうげん、regular expression)とは、文字列の集合を一つの文字列で表現する方法の一つである。
正則表現(せいそくひょうげん)とも呼ばれ、形式言語理論の分野では比較的こちらの訳語の方が使われる。
まれに正規式と呼ばれることもある。
正規表現 by Wikipedia
特定の文字列を検索や置換したり、少量のデータであれば正規表現を使用しなくても問題ないのですが
下記に示すような場合は、正規表現がないと結構手間です。
・行の先頭や末尾にある文字列が含まれている。
・特定の記号や文字に挟まれている文字列を検索する。
・特定の文字種の文字列を検索する。
・規則性のあるパターンで記述されている文字列を検索する。
メタキャラクタ
正規表現のために使う記号のことを「メタキャラクタ」あるいは「メタ文字」と呼びます。
メタキャラクタ |
検索機能 |
^ |
行頭を検索する |
$ |
行末を検索する |
. |
任意の1文字を検索する |
+ |
直前の文字の1回以上の繰り返しを検索する |
* |
直前の文字の0回以上の繰り返しを検索する |
? |
直前の文字の0回か1回出現箇所を検索する |
¥ |
エスケープシーケンスの開始記号として使う |
| |
検索の文字をOR(論理輪)指定する |
() |
検索条件をグループ化する |
[] |
文字の集まり(クラス)を指定する |
メタキャラクタの呼び方
メタキャラクタ |
名称 |
^ |
caret(カレット、キャレット、山記号) |
$ |
dollar sign(ドル記号) |
. |
period(ピリオド、ドット) |
+ |
plus sign(プラス記号) |
* |
asterisk(アスタリスク) |
? |
question mark(クエスションマーク、疑問符) |
¥ |
yen sign(円記号) |
| |
vertical bar(縦棒記号) |
() |
parentheses(パーレン、カッコ、丸カッコ) |
[] |
brackets(ブラケット、角カッコ) |
今日はここまで(・Θ・;)