跳到主要內容

正規表示法::不貪多演算

不論在哪種語言,正規表示法(regular Expression,簡稱RE)預設上都會盡可能的擷取更多的資料範圍,一般稱為貪心演算法。當然本篇不是在研究演算法本身,只是作為常用RE的筆記。

但是一般實務上,通常並不需要貪心演算,許多情況下,貪心演算甚至會礙事。所以,當我們在抓取資料的時候,必須要告訴電腦:老實點,別太貪心!這在RE裡面是怎麼表示呢?就是在次數表示符(quantifier)後面,加註一個『?』,例如:

『.*』代表抓取任意字元、任意次數、貪心演算
『.*?』代表抓取任意字元、任意次數、不貪心演算
『.+』代表抓取任意字元、一次以上、貪心演算
『.+?』代表抓取任意字元、一次以上、不貪心演算

在quantifier 後面加註問號,並不會改變他的意義,改變的只有他的『貪婪程度』。

其他例子:
\d*? :任意數字、任意次數、不貪心演算
\w*? :任意文字、任意次數、不貪心演算
\D*? :任意非數字、任意次數、不貪心演算
\W*? :任意非文字、任意次數、不貪心演算

其他正規表示式的參考資料

1. 比對 「一個字元」 的符號:
[...] ... 當中任何一個字元
[^...] 除了 ... 之外的任何一個字元
. 任何一個字元

2. 「定位」 功能的 anchor:
^... 以 ... 開頭的字串
...$ 以 ... 結尾的字串
\b 文數字/非文數字 的邊界。

3. 計數用, 表達 「重複出現多少次」 的 quantifier:
{5} 重複 5 次
* {3,7} 重複 3 到 7 次
? 可有可無 (0 次或 1 次)
* 重複出現任意次, 包含 0 次
+ 重複出現任意次, 至少 1 次

常用符號:
\d 等同 [0-9],代表『任意數字』
\D 等同 [^0-9],代表『任意非數字』
\w 等同 [a-zA-Z0-9_],代表『任意文字』
\W 等同 [^a-zA-Z0-9_],代表『任意非文字』
\s 等同 [ \t\n],代表『任意空白字元』
\S 等同 [^ \t\n],代表『任意非空白字元』

轉錄:
http://deer.nublog.cc/article.php?u=DeeR&i=20080225

留言

這個網誌中的熱門文章

[解釋] uuid 與 guid 的差異

uuid 與 guid 的差異 很多人都有使用過 MySQL 的 number auto increment, 可是實際使用之後就會發現,很快的數字會不夠使用,而且這個 id 是很容易被猜測出來連續性。 因此就開始進行了解,看到了 uuid 這個名詞,進而下去查詢發現 guid 的另外這個名詞,感覺上這兩個名詞似乎是有些什麼特殊關連。 這篇文章就小小記錄一下自己的查詢心得。

[分享] 腳踏車環島注意事項

很多人都期望自己能夠做點什麼,做些什麼,而退伍之後的第二個星期,就展開了環島之旅。 對很多人來說這不算什麼,甚至有人展開了走路、跑步、溜滑板、單輪車等方式環島一周,充分展現對台灣的愛與關懷。 這篇主要讓不知道怎麼準備環島的人,作一個完善的解說,首先隨身的東西要有: 證件現金類 : 身份證 健保卡 學生證 現金 提款卡 悠遊卡

[教學] 快快樂樂刪除CodeIgniter index.php

預設的CI網址預設都設定為index.php同一層級,因此所有的程式都必須指定index.php導向才能開始,例如 http://localhost/ci/index.php/welcome/test http://localhost/ci/welcome/test 本文將說明如何將惱人的index.php消除,還你一個漂亮的URL。 設定開始: 接下來說明如何使用rewrite方式將惱人的index.php去除。 rewrite不清楚的人,煩請先自行google 首先要先確定Apache的 mod_rewrite 有 開啟 ,如果沒有開啟請設定好之後重新啟動apache。 接著,在根目錄底下建立一個新檔案,檔名為 .htaccess ,裡面程式碼如下: <IfModule mod_rewrite.c> RewriteEngine On RewriteBase / RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule ^(.*)$ index.php/$1 [L] </IfModule> 接著到 application/config/config.php ,開啟檔案修改 $config['index_page'] = ""; 注意: /index.php/$1 要根據你目錄,例如 http://localhost/index.php ,網站根目錄為 /ci/index.php 則要寫成 /ci/index.php/$1 接著至CI目錄下,尋找 config\config.php , 修改一下裡面的檔案,修改如下: $config['index_page'] = ""; 存檔後,如此一來大功告成。 參考資料 官方網站說明