您現(xiàn)在的位置： 365建站網(wǎng) > 365文章 > Python爬蟲(chóng)開(kāi)發(fā)中正則表達(dá)式基本語(yǔ)法與使用方法

Python爬蟲(chóng)開(kāi)發(fā)中正則表達(dá)式基本語(yǔ)法與使用方法

文章來(lái)源：365jz.com 點(diǎn)擊數(shù)：429 更新時(shí)間：2018-01-20 11:13 參與評(píng)論

4.2　正則表達(dá)式

在編寫(xiě)處理網(wǎng)頁(yè)文本的程序時(shí)，經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則的工具。正則表達(dá)式是由普通字符（例如字符a到z）以及特殊字符（稱為“元字符”）組成的文字模式。模式用于描述在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串。正則表達(dá)式作為一個(gè)模板，將某個(gè)字符模式與所搜索的字符串進(jìn)行匹配。

4.2.1　基本語(yǔ)法與使用

正則表達(dá)式功能非常強(qiáng)大，但是學(xué)好并不是很困難。一些初學(xué)者總是感覺(jué)到正則表達(dá)式很抽象，看到稍微長(zhǎng)的表達(dá)式直接選擇放棄。

接下來(lái)從一個(gè)新手的角度，由淺及深，配合各種示例來(lái)講解正則表達(dá)式的用法。

1.入門(mén)小例子

學(xué)習(xí)正則表達(dá)式最好的辦法就是通過(guò)例子。在不斷解決問(wèn)題的過(guò)程中，就會(huì)不斷理解正則表達(dá)式構(gòu)造方法的靈活多變。

例如我們想找到一篇英文文獻(xiàn)中所有的we單詞，你可以使用正則表達(dá)式：we，這是最簡(jiǎn)單的正則表達(dá)式，可以精確匹配英文文獻(xiàn)中的we單詞。正則表達(dá)式工具一般可以設(shè)置為忽略大小寫(xiě)，那we這個(gè)正則表達(dá)式可以將文獻(xiàn)中的We、wE、we和WE都匹配出來(lái)。如果僅僅使用we來(lái)匹配，會(huì)發(fā)現(xiàn)得出來(lái)的結(jié)果和預(yù)想的不一樣，類似于well、welcome這樣的單詞也會(huì)被匹配出來(lái)，因?yàn)檫@些單詞中也包含we。如何僅僅將we單詞匹配出來(lái)呢？我們需要使用這樣的正則表達(dá)式：\bwe\b。

“\b”是正則表達(dá)式規(guī)定的一個(gè)特殊代碼，被稱為元字符，代表著單詞的開(kāi)頭或結(jié)尾，也就是單詞的分界處，它不代表英語(yǔ)中空格、標(biāo)點(diǎn)符號(hào)、換行等單詞分隔符，只是用來(lái)匹配一個(gè)位置，這種理解方式很關(guān)鍵。

假如我們看到we單詞不遠(yuǎn)處有一個(gè)work單詞，想把we、work和它們之間的所有內(nèi)容都匹配出來(lái)，那么我們需要了解另外兩個(gè)元字符“.”和“*”，正則表達(dá)式可以寫(xiě)為\bwe\b.*\bwork\b。“.”這個(gè)元字符的含義是匹配除了換行符的任意字符，“*”元字符不是代表字符，而是代表數(shù)量，含義是“*”前面的內(nèi)容可以連續(xù)重復(fù)任意次使得整個(gè)表達(dá)式被匹配。“.*”整體的意思就非常明顯了，表示可以匹配任意數(shù)量不換行的字符，那么\bwe\b.*\bwork\b作用就是先匹配出we單詞，接著再匹配任意的字符（非換行），直到匹配到work單詞結(jié)束。通過(guò)上面的例子，我們看到元字符在正則表達(dá)式中非常關(guān)鍵，元字符的組合能構(gòu)造出強(qiáng)大的功能。

接下來(lái)咱們開(kāi)始講解常用的元字符，在講解之前，需要介紹一個(gè)正則表達(dá)式的測(cè)試工具M(jìn)atch Tracer，這個(gè)工具可以將寫(xiě)的正則表達(dá)式生成樹(shù)狀結(jié)構(gòu)，描述并高亮每一部分的語(yǔ)法，同時(shí)可以檢驗(yàn)正則表達(dá)式寫(xiě)的是否正確，如圖4-23所示。

2.常用元字符

元字符主要有四種作用：有的用來(lái)匹配字符，有的用來(lái)匹配位置，有的用來(lái)匹配數(shù)量，有的用來(lái)匹配模式。在上面的例子中，我們講到了“.”“*”這兩個(gè)元字符，還有其他元字符，如表4-1所示。

圖4-23　Match Tracer

表4-1　常見(jiàn)元字符

上面的元字符是用來(lái)匹配字符和位置的，接下來(lái)講解其他功能時(shí)，會(huì)依次列出匹配數(shù)量和模式的元字符。下面對(duì)上面列出的元字符使用一些小例子來(lái)進(jìn)行一下練習(xí)。

假如一行文本為：we are still studying and so busy，我們想匹配出所有以s開(kāi)頭的單詞，那么正則表達(dá)式可以寫(xiě)為：\bs\w*\b。\bs\w*\b的匹配順序：先是某個(gè)單詞開(kāi)始處（\b），然后是字母s，然后是任意數(shù)量的字母或數(shù)字（\w*），最后是單詞結(jié)束處（\b）。同理，如果匹配s100這樣的字符串（不是單詞），需要用到“^”和“$”，一個(gè)匹配開(kāi)頭，一個(gè)匹配結(jié)束，可以寫(xiě)為^s\d*$。

3.字符轉(zhuǎn)義

如果你想查找元字符本身的話，比如你查找“.”或者“*”就會(huì)出現(xiàn)問(wèn)題，因?yàn)樗鼈兙哂刑囟üδ埽瑳](méi)辦法把它們指定為普通字符。

這個(gè)時(shí)候就需要用到轉(zhuǎn)義，使用“\”來(lái)取消這些字符的特殊意義。

因此如果查找“.”、“\”或者“*”時(shí)，必須寫(xiě)成“\.”、“\\”和“\*”。例如匹配www.google.com這個(gè)網(wǎng)址時(shí)，可以表達(dá)式可以寫(xiě)為www\.google\.com。

4.重復(fù)

首先列舉出匹配重復(fù)的限定符（指定數(shù)量的代碼），如表4-2所示。

表4-2　常用限定符

下面是一些重復(fù)的例子：

·hello\d+：匹配hello后面跟1個(gè)或更多數(shù)字，例如可以匹配hello1、

hello10等情況。

·^\d{5，12}$：匹配5到12個(gè)數(shù)字的字符串，例如QQ號(hào)符合要求。

·we\d：匹配we后面跟0個(gè)或者一個(gè)數(shù)字，例如we、we0符合情況。

5.字符集合

通過(guò)上面介紹的元字符，可以看到查找數(shù)字、字母或數(shù)字、空格是很簡(jiǎn)單的，因?yàn)橐呀?jīng)有了對(duì)應(yīng)這些字符的集合，但是如果想匹配沒(méi)有預(yù)定義元字符的字符集合，例如匹配a、b、c、d和e中任意一個(gè)字符，這時(shí)候就需要自定義字符集合。正則表達(dá)式是通過(guò)[]來(lái)實(shí)現(xiàn)自定義字符集合，[abcde]就是匹配abcde中的任意一個(gè)字符，[.！]匹配標(biāo)點(diǎn)符號(hào)（“.”、“”或“！”）。

除了將需要自定義的字符都寫(xiě)入[]中，還可以指定一個(gè)字符范圍。

[0-9]代表的含義與“\d”是完全一致的，代表一位數(shù)字；[a-z0-9A-Z_]

也完全等同于“\w”（只考慮英文），代表著26個(gè)字母中的大小寫(xiě)、0

～9的數(shù)字和下劃線中的任一個(gè)字符。

6.分支條件

正則表達(dá)式里的分支條件指的是有幾種匹配規(guī)則，如果滿足其中任意一種規(guī)則都應(yīng)該當(dāng)成匹配，具體方法是用“|”把不同的規(guī)則分隔開(kāi)。例如匹配電話號(hào)碼，電話號(hào)碼中一種是3位區(qū)號(hào)，8位本地號(hào)，形如010-11223344，另一種是4位區(qū)號(hào)，7位本地號(hào)，形如0321-1234567。如果想把電話號(hào)碼匹配出來(lái)，就需要用到分支條件：0\d{2}-\d{8}|0\d{3}-\d{7}。在分支條件中有一點(diǎn)需要注意，匹配分支條件時(shí)，將會(huì)從左到右地測(cè)試每個(gè)條件，如果滿足了某個(gè)分支的話，就不會(huì)去再管其他條件了，條件之間是一種或的關(guān)系，例如從1234567890匹配出連續(xù)的4個(gè)數(shù)字或者連續(xù)8個(gè)數(shù)字，如果寫(xiě)成\d{4}|\d{8}，其實(shí)\d{8}是失效的，既然能匹配出來(lái)8位數(shù)字，肯定就能匹配出4位數(shù)字。

7.分組

先以簡(jiǎn)單的IP地址匹配為例子，想匹配類似192.168.1.1這樣的IP地址，可以這樣寫(xiě)正則表達(dá)式（（\d{1，3}）\.）{3}\d{1，3}。下面分析一下這個(gè)正則表達(dá)式：\d{1，3}代表著1～3位的數(shù)字，（（\d{1，3}）\.）{3}代表著將1～3位數(shù)字加上一個(gè)“.”重復(fù)3次，匹配出類似192.168.1.這部分，之后再加上\d{1，3}，表示1～3位的數(shù)字。但是上述的正則表達(dá)式會(huì)匹配出類似333.444.555.666這些不可能存在的IP地址，因?yàn)镮P地址中每個(gè)數(shù)字都不能大于255，所以要寫(xiě)出一個(gè)完整的IP地址匹配表達(dá)式，還需要關(guān)注一下細(xì)節(jié)，下面給出一個(gè)使用分組的完整IP表達(dá)式：（（25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]\d）\.）{3}（（25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]\d））。其中的關(guān)鍵是（25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]\d）部分，大家應(yīng)該有能力分析出來(lái)。

8.反義

有時(shí)需要查找除某一類字符集合之外的字符。比如想查找除了數(shù)字以外，包含其他任意字符的情況，這時(shí)就需要用到反義，如表4-3所示。

表4-3　常用的反義

例如“\D+”匹配非數(shù)字的一個(gè)或者多個(gè)字符。

9.后向引用

前面我們講到了分組，使用小括號(hào)指定一個(gè)表達(dá)式就可以看做是一個(gè)分組。默認(rèn)情況下，每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào)，規(guī)則是：從左向右，以分組的左括號(hào)為標(biāo)志，第一個(gè)出現(xiàn)的分組的組號(hào)為1，第二個(gè)為2，以此類推。還是以簡(jiǎn)單的IP匹配表達(dá)式（（\d{1，3}）\.）{3}\d{1，3}為例，這里面有兩個(gè)分組1和2，使用Match Tracer這個(gè)工具可以很明顯地看出來(lái)，如圖4-24所示。

比如說(shuō)驗(yàn)證輸入是否為整數(shù)，可以這樣寫(xiě)^（[1-9][0-9]*|0）$。這時(shí)候我們需要用到“（）”來(lái)限制“|”表示“或”關(guān)系的范圍，但我們只是要判斷規(guī)則，沒(méi)必要把exp匹配的內(nèi)容保存到組里，這時(shí)就可以用非捕獲組了^（：[1-9][0-9]*|0）$。

10.零寬斷言

在表4-4中，零寬斷言總共有四種形式。前兩種是正向零寬斷言，后兩種是負(fù)向零寬斷言。什么是零寬斷言呢？我們知道元字符“\b”、“^”匹配的是一個(gè)位置，而且這個(gè)位置需要滿足一定的條件，我們把這個(gè)條件稱為斷言或零寬度斷言。斷言用來(lái)聲明一個(gè)應(yīng)該為真的事實(shí)，正則表達(dá)式中只有當(dāng)斷言為真時(shí)才會(huì)繼續(xù)進(jìn)行匹配?？赡艽蠹腋械接行┏橄?，下面通過(guò)一些例子進(jìn)行講解。

首先說(shuō)一下正向零寬斷言的兩種形式：

·（？=exp）叫零寬度正預(yù)測(cè)先行斷言，它斷言此位置的后面能匹配表達(dá)式exp。比如[a-z]*（？=exp）匹配以ing結(jié)尾的單詞的前面部分（除了ing以外的部分），查找I love cooking and singing時(shí)會(huì)匹配出中的cook與sing。先行斷言的執(zhí)行步驟應(yīng)該是從要匹配字符的最右端找到第一個(gè)“ing”，再匹配前面的表達(dá)式，如無(wú)法匹配則查找第二個(gè)“ing”。

·（？=exp）叫零寬度正回顧后發(fā)斷言，它斷言此位置的前面能匹配表達(dá)式exp。比如（？<=abc）.*匹配以abc開(kāi)頭的字符串的后面部分，可以匹配abcdefgabc中的defgabc而不是abcdefg。通過(guò)比較很容易看出后發(fā)斷言和先行斷言正好相反：它先從要匹配的字符串的最左端開(kāi)始查找斷言表達(dá)式，之后再匹配后面的字符串，如果無(wú)法匹配則繼續(xù)查找第二個(gè)斷言表達(dá)式，如此反復(fù)。

再說(shuō)一下負(fù)向零寬斷言的兩種形式：

·（？！exp）叫零寬度負(fù)預(yù)測(cè)先行斷言，斷言此位置的后面不能匹配表達(dá)式exp。比如\b（（？！abc）\w）+\b匹配不包含連續(xù)字符串

abc的單詞，查找“abc123，ade123”這個(gè)字符串，可以匹配出ade123，可以使用Match Tracer進(jìn)行查看分析。

·（？！exp）叫零寬度負(fù)回顧后發(fā)斷言，斷言此位置的前面不能匹配表達(dá)式exp。比如（？<！[a-z]）\d{7}匹配前面不是小寫(xiě)字母的七位數(shù)字。還有一個(gè)復(fù)雜的例子：（？<=<（\w+）>）.*（？=<\/\1>），用于匹配不包含屬性的簡(jiǎn)單HTML標(biāo)記內(nèi)的內(nèi)容。該表達(dá)式可以從

python爬蟲(chóng)中提取出“python爬蟲(chóng)”，這在Python爬蟲(chóng)開(kāi)發(fā)中常用到。大家可以思考一下是如何提取出包含屬性的HTML標(biāo)記內(nèi)的內(nèi)容。

11.注釋

正則表達(dá)式可以包含注釋進(jìn)行解釋說(shuō)明，通過(guò)語(yǔ)法（#comment）來(lái)實(shí)現(xiàn)，例如\b\w+（#字符串）\b。要包含注釋的話，最好是啟用“忽略模式里的空白符”選項(xiàng)，這樣在編寫(xiě)表達(dá)式時(shí)能任意地添加空格、Tab、換行，而實(shí)際使用時(shí)這些都將被忽略。

12.貪婪與懶惰

當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時(shí)，通常的行為是（在使整個(gè)表達(dá)式能得到匹配的前提下）匹配盡可能多的字符，這就是貪婪模式。以表達(dá)式a\w+b為例，如果搜索a12b34b，會(huì)盡可能匹配更多的個(gè)數(shù)，最后就會(huì)匹配整個(gè)a12b34b，而不是a12b。但是如果想匹配出a12b怎么辦呢？這時(shí)候就需要使用懶惰模式，盡可能匹配個(gè)數(shù)較少的情況，因此需要將上面的a\w+b表達(dá)式改為a\w+b，使用“”來(lái)啟用懶惰模式。表4-5列舉了懶惰限定符的使用方式。

表4-5　懶惰限定符的使用方式

13.處理選項(xiàng)

一般正則表達(dá)式的實(shí)現(xiàn)庫(kù)都提供了用來(lái)改變正則表達(dá)式處理選項(xiàng)的方式，表4-6提供了常用的處理選項(xiàng)。

表4-6　常用的處理選項(xiàng)

是先將正則表達(dá)式的字符串形式編譯為Pattern實(shí)例，然后使用

Pattern實(shí)例處理文本并獲得匹配結(jié)果，最后使用Match實(shí)例獲得信息，進(jìn)行其他操作。主要用到的方法列舉如下：

·re.compile（string[，flag]）

·re.match（pattern，string[，flags]）

·re.search（pattern，string[，flags]）

·re.split（pattern，string[，maxsplit]）

·re.findall（pattern，string[，flags]）

·re.finditer（pattern，string[，flags]）

·re.sub（pattern，repl，string[，count]）

·re.subn（pattern，repl，string[，count]）首先說(shuō)一下re中compile函數(shù)，它將一個(gè)正則表達(dá)式的字符串轉(zhuǎn)化為Pattern匹配對(duì)象。示例如下：

pattern = re.compile(r'\d+')

這會(huì)生成一個(gè)匹配數(shù)字的pattern對(duì)象，用來(lái)給接下來(lái)的函數(shù)作為參數(shù)，進(jìn)行進(jìn)一步的搜索操作。

大家發(fā)現(xiàn)其他幾個(gè)函數(shù)中，還有一個(gè)flag參數(shù)。參數(shù)flag是匹配模式，取值可以使用按位或運(yùn)算符“|”表示同時(shí)生效，比如re.I|re.M。

flag的可選值如下：

·re.I：忽略大小寫(xiě)。

·re.M：多行模式，改變“^”和“$”的行為。

·re.S：點(diǎn)任意匹配模式，改變“.”的行為。

·re.L：使預(yù)定字符類\w\W\b\B\s\S取決于當(dāng)前區(qū)域設(shè)定。

·re.U：使預(yù)定字符類\w\W\b\B\s\S\d\D取決于unicode定義的字符屬性。

·re.X：詳細(xì)模式。這個(gè)模式下正則表達(dá)式可以是多行，忽略空白字符，并可以加入注釋。

1.re.match（pattern，string[，flags]）

這個(gè)函數(shù)是從輸入?yún)?shù)string（匹配的字符串）的開(kāi)頭開(kāi)始，嘗試匹配pattern，一直向后匹配，如果遇到無(wú)法匹配的字符或者已經(jīng)到達(dá)string的末尾，立即返回None，反之獲取匹配的結(jié)果。示例如下：

# coding:utf-8 import re
# 將正則表達(dá)式編譯成pattern對(duì)象

pattern = re.compile(r'\d+')
# 使用re.match匹配文本，獲得匹配結(jié)果，無(wú)法匹配時(shí)將返回None

result1 = re.match(pattern,'192abc')
if result1:
print result1.group()
else:
print '匹配失敗1'
result2 = re.match(pattern,'abc192')
if result2:
print result2.group()
else:
print '匹配失敗2'

運(yùn)行結(jié)果如下：

192 匹配失敗2

匹配192abc字符串時(shí)，match函數(shù)是從字符串開(kāi)頭進(jìn)行匹配，匹配到192立即返回值，通過(guò)group（）可以獲取捕獲的值。同樣，匹配

abc192字符串時(shí)，字符串開(kāi)頭不符合正則表達(dá)式，立即返回None。

2.re.search（pattern，string[，flags]）

search方法與match方法極其類似，區(qū)別在于match（）函數(shù)只從string的開(kāi)始位置匹配，search（）會(huì)掃描整個(gè)string查找匹配，

match（）只有在string起始位置匹配成功的時(shí)候才有返回，如果不是開(kāi)始位置匹配成功的話，match（）就返回None。search方法的返回

對(duì)象和match（）返回對(duì)象在方法和屬性上是一致的。示例如下：

import re
# 將正則表達(dá)式編譯成pattern對(duì)象

pattern = re.compile(r'\d+')
# 使用re.match匹配文本獲得匹配結(jié)果；無(wú)法匹配時(shí)將返回None
result1 = re.search(pattern,'abc192edf')
if result1:
print result1.group()
else:
print '匹配失敗1'

輸出結(jié)果為：

192

3. re.split(pattern, string[, maxsplit])

按照能夠匹配的子串將string分割后返回列表。maxsplit用于指定最大分割次數(shù)，不指定，則將全部分割。示例如下：

import re
pattern = re.compile(r'\d+')
print re.split(pattern,'A1B2C3D4')

輸出結(jié)果為：

['A', 'B', 'C', 'D', '']

4.re.findall（pattern，string[，flags]）

搜索整個(gè)string，以列表形式返回能匹配的全部子串。示例如下：

import re
pattern = re.compile(r'\d+')
print re.findall(pattern,'A1B2C3D4')

輸出結(jié)果為：

['1', '2', '3', '4']

5.re.finditer（pattern，string[，flags]）

搜索整個(gè)string，以迭代器形式返回能匹配的全部Match對(duì)象。示例如下：

import re
pattern = re.compile(r'\d+')
matchiter = re.finditer(pattern,'A1B2C3D4')
for match in matchiter:

print match.group()

輸出結(jié)果為：

1 2 3 4

6.re.sub（pattern，repl，string[，count]）

使用repl替換string中每一個(gè)匹配的子串后返回替換后的字符串。

當(dāng)repl是一個(gè)字符串時(shí)，可以使用\id或\g<id>、\g<name>引用分組，但不能使用編號(hào)0。當(dāng)repl是一個(gè)方法時(shí)，這個(gè)方法應(yīng)當(dāng)只接受一個(gè)參數(shù)（Match對(duì)象），并返回一個(gè)字符串用于替換（返回的字符串中不能再引用分組）。count用于指定最多替換次數(shù)，不指定時(shí)全部替換。示例如下：

import re
p = re.compile(r'(P<word1>\w+) (P<word2>\w+)')# 使用名稱引用

s = 'i say, hello world!'
print p.sub(r'\g<word2> \g<word1>', s)
p = re.compile(r'(\w+) (\w+)')# 使用編號(hào)

print p.sub(r'\2 \1', s)
def func(m):

return m.group(1).title() + ' ' + m.group(2).title()
print p.sub(func, s)

輸出結(jié)果為：

say i, world hello! say i, world hello! I Say, Hello World!

7.re.subn（pattern，repl，string[，count]）

返回（sub（repl，string[，count]），替換次數(shù)）。示例如下：

import re
s = 'i say, hello world!'
p = re.compile(r'(\w+) (\w+)')
print p.subn(r'\2 \1', s)
def func(m):
return m.group(1).title() + ' ' + m.group(2).title()
print p.subn(func, s)

輸出結(jié)果為：

('say i, world hello!', 2)
('I Say, Hello World!', 2)

以上7個(gè)函數(shù)在re模塊中進(jìn)行搜索匹配，如何將捕獲到的值提取出來(lái)呢？這就需要用到Match對(duì)象，之前已經(jīng)使用了Match中的

groups方法，現(xiàn)在介紹一下Match對(duì)象的屬性和方法。

Match對(duì)象的屬性：

·string：匹配時(shí)使用的文本。

·re：匹配時(shí)使用的Pattern對(duì)象。

·pos：文本中正則表達(dá)式開(kāi)始搜索的索引。值與Pattern.match（）和Pattern.search（）方法的同名參數(shù)相同。

·endpos：文本中正則表達(dá)式結(jié)束搜索的索引。值與Pattern.match（）和Pattern.search（）方法的同名參數(shù)相同。

·lastindex：最后一個(gè)被捕獲的分組在文本中的索引。如果沒(méi)有被捕獲的分組，將為None。

·lastgroup：最后一個(gè)被捕獲的分組的別名。如果這個(gè)分組沒(méi)有別名或者沒(méi)有被捕獲的分組，將為None。

·Match對(duì)象的方法：

·group（[group1，…]）：獲得一個(gè)或多個(gè)分組截獲的字符串，指定多個(gè)參數(shù)時(shí)將以元組形式返回。group1可以使用編號(hào)也可以使用別名，編號(hào)0代表整個(gè)匹配的子串，不填寫(xiě)參數(shù)時(shí)，返回group（0）。

沒(méi)有截獲字符串的組返回None，截獲了多次的組返回最后一次截獲的子串。

·groups（[default]）：以元組形式返回全部分組截獲的字符串。相當(dāng)于調(diào)用group（1，2，…last）。default表示沒(méi)有截獲字符串的組以這個(gè)值替代，默認(rèn)為None。

·groupdict（[default]）：返回以有別名的組的別名為鍵、以該組截獲的子串為值的字典，沒(méi)有別名的組不包含在內(nèi)。default含義同上。

·start（[group]）：返回指定的組截獲的子串在string中的起始索引（子串第一個(gè)字符的索引）。group默認(rèn)值為0。

·end（[group]）：返回指定的組截獲的子串在string中的結(jié)束索引（子串最后一個(gè)字符的索引+1）。group默認(rèn)值為0。

·span（[group]）：返回（start（group），end（group））。

·expand（template）：將匹配到的分組代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分組，但不能使用編號(hào)0。\id與\g<id>是等價(jià)的，但\10將被認(rèn)為是第10個(gè)分組，如果你想表達(dá)\1之后是字符‘0’，只能使用\g<1>0。

示例如下：

import re
pattern = re.compile(r'(\w+) (\w+) (P<word>.*)')
match = pattern.match( 'I love you!')

print "match.string:", match.string
print "match.re:", match.re
print "match.pos:", match.pos
print "match.endpos:", match.endpos
print "match.lastindex:", match.lastindex
print "match.lastgroup:", match.lastgroup
print "match.group(1,2):", match.group(1, 2)
print "match.groups():", match.groups()
print "match.groupdict():", match.groupdict()
print "match.start(2):", match.start(2)
print "match.end(2):", match.end(2)
print "match.span(2):", match.span(2)
print r"match.expand(r'\2 \1 \3'):", match.expand(r'\2 \1 \3')

輸出結(jié)果：

match.string: I love you! match.re: <_sre.SRE_Pattern object at 0x003F47A0> match.pos: 0 match.endpos: 11 match.lastindex: 3 match.lastgroup: word
match.group(1,2): ('I', 'love')
match.groups(): ('I', 'love', 'you!')
match.groupdict(): {'word': 'you!'}

match.start(2): 2 match.end(2): 6 match.span(2): (2, 6)
match.expand(r'\2 \1 \3'): love I you!

前文介紹的7種方法的調(diào)用方式大都是re.match、re.search之類，其實(shí)還可以使用由re.compile方法產(chǎn)生的Pattern對(duì)象直接調(diào)用這些函數(shù)，類似pattern.match，pattern.search，只不過(guò)不用將Pattern作為第一個(gè)參數(shù)傳入。函數(shù)對(duì)比如表4-8所示。

表4-8　函數(shù)調(diào)用方式