正則表達式

正則表達式

正則表達式,又稱正規表示法常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),電腦科學的一個概念。正則表達式使用單個字元串來描述、匹配一系列符合某個句法規則的字元串。在很多文本編輯器裏,正則表達式通常被用來檢索、替換那些符合某個模式的文本。

許多程式語言都支持利用正則表達式進行字元串操作。例如,在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體(例如sed和grep)普及開的。正則表達式通常縮寫成"regex",單數有regexp、regex,復數有regexps、regexes、regexen。

  • 中文名稱
    正則表達式
  • 外文名稱
    Regular Expression
  • 別名
    正規表示法、常規表示法
  • 代碼簡寫
    regex、regexp或RE

基本概念

電腦科學中,是指一個用來描述或者匹配一系列符合某個句法規則的字元串的單個字元串。在很多文本編輯器或其他工具裏,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程式設計語言都支持利用正則表達式進行字元串操作。例如,在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體(例如sed和grep)普及開的。正則表達式通常縮寫成“regex”,單數有regexp、regex,復數有regexps、regexes、regexen。

正則表達式 正則表達式

基本術語

正則表達式套用實例目錄

【1】 正則表達式套用——替換指定內容到行尾

【2】 正則表達式套用——數位替換

【3】 正則表達式套用——移除每一行行尾的指定字元

【4】 正則表達式套用——替換帶有半角括弧的多行

【5】 正則表達式套用——移除空行

【6】 正則表達式套用——實例套用

正則表達式套用實例

【1】正則表達式套用——替換指定內容到行尾

原始文本如下面兩行

abc aaaaa

123 abc 444

希望每次遇到“abc”,則替換“abc”以及其後到行尾的內容為“abc efg”

即上面的文本最終替換為:

abc efg

123 abc efg

解決:

① 在替換對話框,查找內容裏輸入“abc.*”,替換內容輸入為“abc efg”

② 同時勾選“正則表達式”復選框,然後點擊“全部替換”按鈕

其中,符號的含義如下:

“.” =匹配任意字元

“*” =匹配0次或更多

註意:其實就是正則表達式替換,這裏隻是把一些曾經提出的問題加以整理,單純從正則表達式本身來說,就可以引申出成千上萬種特例。

【2】正則表達式套用——數位替換

希望把

asdadas123asdasdas456asdasdasd789asdasd

替換為:

asdadas[123]asdasdas[456]asdasdasd[789]asdasd

在替換對話框裏面,勾選“正則表達式”復選框;

在查找內容裏面輸入“([0-9])([0-9])([0-9])”,不含引號

“替換為:”裏面輸入“[\1\2\3]”,不含引號

範圍為你所操作的範圍,然後選擇替換即可。

實際上這也是正則表達式的使用特例,“[0-9]”表示匹配0~9之間的任何特例,同樣“[a-z]”就表示匹配a~z之間的任何特例

上面重復使用了“[0-9]”,表示連續出現的三個數位

括弧用來選擇原型,進行分組,替換時要用

“\1”代表第一個“[0-9]”對應的原型,“\2”代表第二個“[0-9]”對應的原型,依此類推

“[”、“]”為單純的字元,表示增加“[”或“]”,如果輸入“其它\1\2\3其它”,則替換結果為:

asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd

功能增強:

如果將查找內容“[0-9][0-9][0-9]”改為“[0-9]*[0-9]”,對應1 或 123 或 12345 或 ...

大家根據需要定製

相關內容還有很多,可以自己參考正則表達式的文法仔細研究一下

【3】正則表達式套用——移除每一行行尾的指定字元

因為這幾個字元在行中也是出現的,所以肯定不能用簡單的替換實現

比如

12345 1265345

2345

需要移除每行末尾的“345”

這個也算正則表達式的用法,其實仔細看正則表達式應該比較簡單,不過既然有這個問題提出,說明對正則表達式還得有個認識過程,解決方法如下

解決:

在替換對話框中,啓用“正則表達式”復選框

在查找內容裏面輸入“345$”

這裏“$”表示從行尾匹配

如果從行首匹配,可以用“^”來實現,不過 EditPlus 有另一個功能可以很簡單的移除行首的字元串

a. 選擇要操作的行

b. 編輯-格式-移除行注解

c. 在彈出對話框裏面輸入要清除的行首字元,確定

【4】正則表達式套用——替換帶有半角括弧的多行

幾百個網頁中都有下面一段代碼:

<script LANGUAGE="JavaScript1.1">

<!--

htmlAdWH('93163607', '728', '90');

//-->

</SCRIPT>

我想把它們都去掉,可是找了很多search & replace的軟體,都是隻能對“一行”進行操作。

EditPlus 開啟幾百個網頁檔案還是比較順暢的,所以完全可以勝任這個工作。

具體解決方法,在 Editplus 中使用正則表達式,由于“(”、“)”被用做預設表達式(或者可以稱作子表達式)的標志,所以查找

“<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH('93163607', '728', '90'.);\n//-->\n</SCRIPT>\n”

時會提示查找不到,所以也就無法進行替換了,這時可以把“(”、“)”使用任意字元標記替代,即半角句號:“.”。替換內容為

<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH.'93163607', '728', '90'.;\n//-->\n</SCRIPT>\n

在替換對話框啓用“正則表達式”選項,這時就可以完成替換了

補充:

對( ) 這樣的特殊符號,應該用\( \)來表示,這也是很標準的regexp文法,可以寫為

<script LANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH\('93163607', '728', '90'\);\n//-->\n</SCRIPT>\n

【5】正則表達式套用——移除空行

啓動EditPlus,開啟待處理的文本類型檔案。

①、選擇“查找”選單的“替換”命令,彈出文本替換對話框。選中“正則表達式”復選框,表明我們要在查找、替換中使用正則表達式。然後,選中“替換範圍”中的“當前檔案”,表明對當前檔案操作。

②、單擊“查找內容”組合框右側的按鈕,出現下拉選單。

③、下面的操作增加正則表達式,該表達式代表待查找的空行。(技巧提示:空行僅包括空格符製表符、回車符,且必須以這三個符號之一作為一行的開頭,並且以回車符結尾,查找空行的關鍵是構造代表空行的正則表達式)。

直接在"查找"中輸入正則表達式“^[ \t]*\n”,註意\t前有空格符。

(1)選擇“從行首開始匹配”,“查找內容”組合框中出現字元“^”,表示待查找字元串必須出現在文本中一行的行首。

(2)選擇“字元在範圍中”,那麽在“^”後會增加一對括弧“[]”,當前插入點在括弧中。括弧在正則表達式中表示,文本中的字元匹配括弧中任意一個字元即符合查找條件。

(3)按一下空格鍵,增加空格符。空格符是空行的一個組成成分。

(4)選擇“製表符”,增加代表製表符的“\t”。

(5)移動游標,將當前插入點移到“]”之後,然後選擇“匹配 0 次或更多”,該操作會增加星號字元“*”。星號表示,其前面的括弧“[]”內的空格符或製表符,在一行中出現0個或多個。

(6)選擇“換行符”,插入“\n”,表示回車符。

④、“替換為”組合框保持空,表示移除查找到的內容。單擊“替換”按鈕逐個行移除空行,或單擊“全部替換”按鈕移除全部空行(註意:EditPlus有時存在“全部替換”不能一次性完全移除空行的問題,可能是程式BUG,需要多按幾次按鈕)。

【6】 正則表達式套用——實例套用

1.驗證使用者名稱和密碼:("^[a-zA-Z]\w{5,15}$")正確格式:"[A-Z][a-z]_[0-9]"組成,並且第一個字必須為字母6~16位;

2.驗證電話號碼:("^(\d{3.4}-)\d{7,8}$")正確格式:xxx/xxxx-xxxxxxx/xxxxxxxx;

3.驗證身份證號(15位或18位數位):("^\d{15}|\d{18}$");

4.驗證Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");

5.隻能輸入由數位和26個英文字母組成的字元串:("^[A-Za-z0-9]+$") ;

6.整數或者小數:^[0-9]+\.{0,1}[0-9]{0,2}$

7.隻能輸入數位:"^[0-9]*$"。

8.隻能輸入n位的數位:"^\d{n}$"。

9.隻能輸入至少n位的數位:"^\d{n,}$"。

10.隻能輸入m~n位的數位:。"^\d{m,n}$"

11.隻能輸入零和非零開頭的數位:"^(0|[1-9][0-9]*)$"。

12.隻能輸入有兩位小數的正實數:"^[0-9]+(.[0-9]{2})?$"。

13.隻能輸入有1~3位小數的正實數:"^[0-9]+(.[0-9]{1,3})?$"。

14.隻能輸入非零的正整數:"^\+?[1-9][0-9]*$"。

15.隻能輸入非零的負整數:"^\-[1-9][]0-9"*$。

16.隻能輸入長度為3的字元:"^.{3}$"。

17.隻能輸入由26個英文字母組成的字元串:"^[A-Za-z]+$"。

18.隻能輸入由26個大寫英文字母組成的字元串:"^[A-Z]+$"。

19.隻能輸入由26個小寫英文字母組成的字元串:"^[a-z]+$"。

20.驗證是否含有^%&',;=?$\"等字元:"[^%&',;=?$\x22]+"。

21.隻能輸入漢字:"^[\u4e00-\u9fa5]{0,}$"

22.驗證URL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。

23.驗證一年的12個月:"^(0?[1-9]|1[0-2])$"正確格式為:"01"~"09"和"1"~"12"。

24.驗證一個月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正確格式為;"01"~"09"和"1"~"31"。

25.獲取日期正則表達式:\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?

評註:可用來匹配大多數年月日信息。

26.匹配雙位元組字元(包括漢字在內):[^\x00-\xff]

評註:可以用來計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1)

27.匹配空白行的正則表達式:\n\s*\r

評註:可以用來移除空白行

28.匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</>|<.*? />

評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對于復雜的嵌套標記依舊無能為力

29.匹配首尾空白字元的正則表達式:^\s*|\s*$

評註:可以用來移除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表達式

30.匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*

評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求

31.匹配帳號是否合法(字母開頭,允許5-16位元組,允許字母數位下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

評註:表單驗證時很實用

32.匹配騰訊QQ號:[1-9][0-9]\{4,\}

評註:騰訊QQ號從1000 0 開始

33.匹配中國郵政編碼:[1-9]\d{5}(?!\d)

評註:中國郵政編碼為6位數位

34.匹配ip地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

評註:提取ip地址時有用

Function IsRegu(Regu,s)

'正則表達式校驗

If Regu="" Then

Exit Function

End if

Dim Re,Sre

Set Re = New RegExp

Re.Pattern = Regu

Sre = Re.Test(s)

If Sre = True Then

IsRegu = True

Else

IsRegu = False

End If

End Function

tmp=" "

if (IsRegu("\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*",tmp )) =false then

msgbox "E-mail地址不合法 !"

FieldCheck#N=false

end if

不同的語言(如PHP和JAVA)、相同語言的不同類庫(如來自Sun的Java Regular Expression類庫跟Apache Jakarta的正則表達式類庫)間,用法會有所差別,在使用的時候,要註意這些差別。

操作技巧

(摘自《正則表達式之道》)

正則表達式由一些普通字元和一些元字元(metacharacters)組成。普通字元包括大小寫的字母和數位,而元字元則具有特殊的含義,我們下面會給予解釋。

在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字元,它可以匹配"testing"和"123testing"等字元串,但是不能匹配"Testing"。

要想真正的用好正則表達式,正確的理解元字元是最重要的事情。下表列出了所有的元字元和對它們的一個簡短的描述。

元字元 描述
\將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進位轉義符。例如,“\n”匹配字元“n”。“\\n”匹配一個換行符。序列“\\”匹配“\”而“\(”則匹配“(”。
^匹配輸入字元串的開始位置。如果設定了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之後的位置。
$匹配輸入字元串的結束位置。如果設定了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。
*匹配前面的子表達式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等價于{0,}。
+匹配前面的子表達式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價于{1,}。
?匹配前面的子表達式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等價于{0,1}。
{n}n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。
{n,}n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。
{n,m}m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價于“o?”。請註意在逗號和兩個數之間不能有空格。
?當該字元緊跟在任何一個其他限製符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜尋的字元串,而默認的貪婪模式則盡可能多的匹配所搜尋的字元串。例如,對于字元串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。
.點匹配除“\n”之外的任何單個字元。要匹配包括“\n”在內的任何字元,請使用像“(.|\n)”的模式。
(pattern)匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括弧字元,請使用“\(”或“\)”。
(?:pattern)匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以後使用。這在使用或字元“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。
(?=pattern)正向肯定預查,在任何匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以後使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。
(?!pattern)正向否定預查,在任何不匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以後使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。
(?<=pattern)反向肯定預查,與正向肯定預查類似,隻是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)反向否定預查,與正向否定預查類似,隻是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。
x|y匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”則匹配“zood”或“food”。
[xyz]字元集合。匹配所包含的任意一個字元。例如,“[abc]”可以匹配“plain”中的“a”。
[^xyz]負值字元集合。匹配未包含的任意字元。例如,“[^abc]”可以匹配“plain”中的“plin”。
[a-z]字元範圍。匹配指定範圍內的任意字元。例如,“[a-z]”可以匹配“a”到“z”範圍內的任意小寫字母字元。
[^a-z]負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
\b匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B匹配非單詞邊界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
\cx匹配由x指明的控製字元。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字元。
\d匹配一個數位字元。等價于[0-9]。
\D匹配一個非數位字元。等價于[^0-9]。
\f匹配一個換頁符。等價于\x0c和\cL。
\n匹配一個換行符。等價于\x0a和\cJ。
\r匹配一個回車符。等價于\x0d和\cM。
\s匹配任何空白字元,包括空格、製表符、換頁符等等。等價于[ \f\n\r\t\v]。
\S匹配任何非空白字元。等價于[^ \f\n\r\t\v]。
\t匹配一個製表符。等價于\x09和\cI。
\v匹配一個垂直製表符。等價于\x0b和\cK。
\w匹配包括下劃線的任何單詞字元。等價于“[A-Za-z0-9_]”。
\W匹配任何非單詞字元。等價于“[^A-Za-z0-9_]”。
\xn匹配n,其中n為十六進位轉義值。十六進位轉義值必須為確定的兩個數位長。例如,“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達式中可以使用ASCII編碼。
\num匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字元。
\n標識一個八進位轉義值或一個向後引用。如果\n之前至少n個獲取的子表達式,則n為向後引用。否則,如果n為八進位數位(0-7),則n為一個八進位轉義值。
\nm標識一個八進位轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表達式,則nm為向後引用。如果\nm之前至少有n個獲取,則n為一個後跟文字m的向後引用。如果前面的條件都不滿足,若n和m均為八進位數位(0-7),則\nm將匹配八進位轉義值nm。
\nml如果n為八進位數位(0-3),且m和l均為八進位數位(0-7),則匹配八進位轉義值nml。
\un匹配n,其中n是一個用四個十六進位數位表示的Unicode字元。例如,\u00A9匹配著作權符號(&copy;)。

最簡單的元字元是點,它能夠匹配任何單個字元(註意不包括換行符)。假定有個檔案test.txt包含以下幾行內容:

he is a rat

he is in a rut

the food is Rotten

I like root beer

我們可以使用grep命令來測試我們的正則表達式,grep命令使用正則表達式去嘗試匹配指定檔案的每一行,並將至少有一處匹配表達式的所有行顯示出來。命令

grep r.t test.txt

在test.txt檔案中的每一行中搜尋正則表達式r.t,並列印輸出匹配的行。正則表達式r.t匹配一個r接著任何一個字元再接著一個t。所以它將匹配檔案中的rat和rut,而不能匹配Rotten中的Rot,因為正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字元區間元字元(方括弧)。正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接著任何一個字元再接著一個t就要使用這個表達式:[Rr].t。

要想匹配行首的字元要使用抑揚字元(^)——有時也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用正則表達式^he,它隻匹配在行首出現的h。

有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字元(^)出現在方括弧中時,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情形(也就是the和she),可以使用:[^st]he。

可以使用方括弧來指定多個字元區間。例如正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;正則表達式[A-Za-z][A-Za-z]* 匹配一個字母後面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字元+做到同樣的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等價。但是要註意元字元+ 並不是所有支持正則表達式的程式都支持的。關于這一點可以參考後面的正則表達式文法支持情況。

要指定特定數量的匹配,要使用大括弧(註意必須使用反斜杠來轉義)。想匹配所有10和100的實例而排除1和 1000,可以使用:10\{1,2\},這個正則表達式匹配數位1後面跟著1或者2個0的模式。在這個元字元的使用中一個有用的變化是忽略第二個數位,例如正則表達式0\{3,\} 將匹配至少3個連續的0。

這裏有一些有代表性的、比較簡單的例子。

vi 命令作用
:%s/ */ /g把一個或者多個空格替換為一個空格
:%s/ *$//去掉行尾的所有空格
:%s/^/ /在每一行頭上加入一個空格
:%s/^[0-9][0-9]* //去掉行首的所有數位字元
:%s/b[aeio]g/bug/g將所有的bag、beg、big和bog改為bug。
:%s/t\([aou]\)g/h\1t/g將所有tag、tog和tug分別改為hat、hot和hut(註意用group的用法和使用\1引用前面被匹配的字元)

例1

將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這裏a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:

之前 之後

foo(10,7,2) foo(7,10,2)

foo(x+13,y-2,10) foo(y-2,x+13,10)

foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面這條替換命令能夠實現這一魔法:

:%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)/g

現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括弧中的三個參數的位置。第一個參數是用這個表達式來識別的::\([^,]*\),我們可以從裏向外來分析它:

[^,] 除了逗號之外的任何字元

[^,]* 0或者多個非逗號字元

\([^,]*\) 將這些非逗號字元標記為\1,這樣可以在之後的替換模式表達式中引用它

\([^,]*\), 我們必須找到0或者多個非逗號字元後面跟著一個逗號,並且非逗號字元那部分要標記出來以備後用。

現在正是指出一個使用正則表達式常見錯誤的最佳時機。為什麽我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?構想我們使用模式.*來匹配字元串"10,7,2",它應該匹配"10,"還是"10,7,"?為了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強製取出第一個逗號之前的部分。

這個表達式我們已經分析到了:foo(\([^,]*\),這一段可以簡單的翻譯為“當你找到foo(就把其後直到第一個逗號之前的部分標記為\1”。然後我們使用同樣的辦法標記第二個參數為\2。對第三個參數的標記方法也是一樣,隻是我們要搜尋所有的字元直到右括弧。我們並沒有必要去搜尋第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們隻去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overloading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應實例,然後利用標記好的部分進行替換,是把第一和第二個參數交換位置。

例2

假設有一個CSV(comma separated value)檔案,裏面有一些我們需要的信息,但是格式卻有問題,目前資料的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望將這些資料重新組織,以便在我們的某個軟體中使用,需要的格式為:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合並兩個列來構成一個新列。另外,我們的軟體不能接受逗號前後有任何空格(包括空格和製表符)所以我們還必須要去掉逗號前後的所有空格。

這裏有幾行我們現在的資料:

Bill Jones, HI-TEK Corporation , CA, 95011

Sharon Lee Smith, Design Works Incorporated, CA, 95012

B. Amos , Hill Street Cafe, CA, 95013

Alexander Weatherworth, The Crafts Store, CA, 95014

...

我們希望把它變成這個樣子:

Bill Jones,CA 95011,HI-TEK Corporation

Sharon Lee Smith,CA 95012,Design Works Incorporated

B. Amos,CA 95013,Hill Street Cafe

Alexander Weatherworth,CA 95014,The Crafts Store

...

我們將用兩個正則表達式來解決這個問題。第一個移動列和合並列,第二個用來去掉空格。

下面就是第一個替換命令:

:%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/\1,\3 \4,\2/

這裏的方法跟例1基本一樣,第一個列(姓名)用這個表達式來匹配:\([^,]*\),即第一個逗號之前的所有字元,而姓名內容被用\1標記下來。公司名和州名縮寫欄位用同樣的方法標記為\2和\3,而最後一個欄位用\(.*\)來匹配("匹配所有字元直到行末")。替換部分則引用上面標記的那些內容來進行構造。

下面這個替換命令則用來去除空格:

:%s/[ \t]*,[ \t]*/,/g

我們還是分解來看:[ \t]匹配空格/製表符,[ \t]* 匹配0或多個空格/製表符,[ \t]*,匹配0或多個空格/製表符後面再加一個逗號,最後,[ \t]*,[ \t]*匹配0或多個空格/製表符接著一個逗號再接著0或多個空格/製表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這裏我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是缺省的隻替換第一個匹配串)。

例3

假設有一個多字元的片斷重復出現,例如:

Billy tried really hard

Sally tried really really hard

Timmy tried really really really hard

Johnny tried really really really really hard

而你想把"really"、"really really",以及任意數量連續出現的"really"字元串換成一個簡單的"very"(simple is good!),那麽以下命令:

:%s/\(really \)\(really \)*/very /

正則表達式文法支持情況

命令或環境 .[ ]^$\( \)\{ \}?+|( )
viXXXXX




Visual C++XXXXX




awkXXXX

XXXX
sedXXXXXX



TclXXXXX
XXXX
exXXXXXX



grepXXXXXX



egrepXXXXX
XXXX
fgrepXXXXX




perlXXXXX
XXXX

發展歷程

正則表達式的“鼻祖”或許可一直追溯到科學家對人類神經系統工作原理的早期研究。美國新澤西州的Warren McCulloch和出生在美國底特律的Walter Pitts這兩位神經生理方面的科學家,研究出了一種用數學方式來描述神經網絡的新方法,他們創新地將神經系統中的神經元描述成了小而簡單的自動控製元,從而作出了一項偉大的工作革新。

在1956 年,出生在被馬克·吐溫(Mark Twain)稱為“美國最美麗的城市之一的”哈特福德市的一位名叫Stephen Kleene的數學科學家,他在Warren McCulloch和Walter Pitts早期工作的基礎之上,發表了一篇題目是《神經網事件的表示法》的論文,利用稱之為正則集合的數學符號來描述此模型,引入了正則表達式的概念。正則表達式被作為用來描述其稱之為“正則集的代數”的一種表達式,因而採用了“正則表達式”這個術語。

之後一段時間,人們發現可以將這一工作成果套用于其他方面。Ken Thompson就把這一成果套用于計算搜尋演算法的一些早期研究,Ken Thompson是 Unix的主要發明人,也就是大名鼎鼎的Unix之父。Unix之父將此符號系統引入編輯器QED,然後是Unix上的編輯器ed,並最終引入grep。Jeffrey Friedl 在其著作“Mastering Regular Expressions (2nd edition)”中對此作了進一步闡述講解,如果你希望更多了解正則表達式理論和歷史,推薦你看看這本書。

自此以後,正則表達式被廣泛地套用到各種UNIX或類似于UNIX的工具中,如大家熟知的Perl。Perl的正則表達式源自于Henry Spencer編寫的regex,之後已演化成了pcre(Perl兼容正則表達式Perl Compatible Regular Expressions),pcre是一個由Philip Hazel開發的、為很多現代工具所使用的庫。正則表達式的第一個實用應用程式即為Unix中的 qed 編輯器。

以上是關于正則表達式的起源和發展的歷史描述,到目前正則表達式在基于文本的編輯器和搜尋工具中依然佔據這一個非常重要的地位。

在最近的六十年中,正則表達式逐漸從模糊而深奧的數學概念,發展成為在電腦各類工具和軟體包套用中的主要功能。不僅僅眾多UNIX工具支持正則表達式,近二十年來,在WINDOW的陣營下,正則表達式的思想和套用在大部分 Windows 開發者工具包中得到支持和嵌入套用!從正則式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和發展,WINDOWS系列產品對正則表達式的支持發展到無與倫比的高度,目前幾乎所有 Microsoft 開發者和所有.NET語言都可以使用正則表達式。如果你是一位接觸電腦語言的工作者,那麽你會在主流作業系統(*nix[Linux, Unix等]、Windws、HP、BeOS等)、目前主流的開發語言(PHP、C#、Java、C++、VB、Javascript、Ruby以及python等)、數以億萬計的各種套用軟體中,都可以看到正則表達式優美的舞姿。

其他資料

心得體會

(1) 心中時刻保持新穎想法,嘗試用各種新辦法來解決遇到的問題。對于遇到的問題,在用常規的解決思路無法解決或不能很好解決的時間,可以大膽探索嘗試採用新的方法或思路來解決問題,說大點就是創新!沒有新思路估計今天的正則表達式還要等幾百年才能露現人間。

(2) 善于學習和借鏡前人的經驗和成果,UNIX鼻祖Ken Thompson是什麽樣子的人?是被電腦界尊稱為“UNIX之父”的大師級別的人物,大師都在不斷思考從其它學科、其它知識領域的工作成果,來改進自己的工作或程式,事實也證明這樣做取得巨大結果和後來的深遠影響是事先誰也無法預估到的,我們在做一些事情或研究的時間,是否也考慮學習大師的優秀習慣?

(3) 學好數學、英語並保持對數學、英語的興趣,數學也是人類幾千年積累的智慧結晶,學習數學知識可以培養和訓練人的思維能力。看這篇文章的朋友,我想很多都是電腦相關專業的朋友,至于數學和英語對于電腦學習和發展的重要性的道理,這裏就不在多說,重在實踐加持之以恆!

(4) 養成獨立思考習慣。上學時候老師經常說人與動物的最大區別是人能思考。拉美洲有句關于“思考”的諺語是,不會思考的人是白目,不肯思考的人是懶漢,不敢思考的人是奴隸。我想大家和我一樣,既不願做懶漢、奴隸,更不願做白目。所以相信正則分享網的朋友們一定會選擇做一個“會思、在思、敢思”的人。    

相關詞條

相關搜尋

其它詞條