第5章正则表达式

2016年3月25日 skiron Comments 0 Comment

（1）re.sub(‘ROAD$’, ‘RD. ‘, s)#$匹配在结尾的字符串，^匹配在开头的字符串。re.sub是在s字符串的结尾，查找’ROAD$’，然后用 ‘RD. ‘替换。

（2）re.sub(r’\bROAD\b’, ‘RD. ‘, s)#\b表示一个词的边界在这里。但’\’需要一个’\’进行转意，不然\b会被认为是一个字符。如果不想进行转意要使用一种叫做“生字符串”，方法是在字符串之前加上一个r，如’\t’代表tab字符，但r’\t’它代表两个字符。建议在代有正则表达式的字符串使用“生字符串”，可以避免表达式太复杂而降低了速度。

（3）问号（？）用于匹配至多一次它之前的项；星号（*）用于匹配0或多次之前的项；加号（+）用于匹配1或多次之前的项；点号（.）除了换行符的任意字符。

（4）re模块的核心本质就是search()函数：
re.search(‘^M?M?M?$’, ‘MMMM’)#无法匹配到，因为要求匹配0~3个M开头并结尾的字符，其实就是完全匹配0~3个M，0~3个M不能在字符串的中间出现。
re.search(‘^M?M?M?$’, ”)#可以匹配到，因为可以是0个M！

（5）pattern=’^M?M?M?(CM|CD|D?C?C?C?)$’
这个模式分括号里的内容是一项，不可分割的一组内容，它的内容代表一种可能，用竖线分开（|），可以是：CM，CD或D?C?C?C?。所以：

re.search(pattern, ‘MCM’)#可以匹配到，因为以M开头（开头必须是M?M?M?），并且以CM结尾（结尾必须是CM,CD或D?C?C?C?）
re.search(pattern, ‘MD’)#同样可以匹配到。
re.search (pattern, ‘MMMCCC’)#刚好匹配到所有位。
re.search (pattern, ‘MMMCCCC’)#匹配不到因为位数超了。
re.search (pattern, ‘MCMC’)#匹配不到，因为不能以MC或CMC结尾

（6）pattern = ‘^M{0,3}$’#这个模式是说：匹配开头字符串0至3个M字符，并且结尾也是如此。和’^M?M?M?$’这个模式相同。

{n}精确匹配n次。
{n,}匹配n次至多次。
{,m}至多匹配m次。
{n,m}匹配至少n次至多m次（最大优先）。
{n,m}?匹配至少n次至多m次(最少优先)。

（7）正则表达式分为“精简模式”和“冗余模式”，它们之间的不同是：

“冗余模式”的空格、tab和回车被忽略。要想匹配到就要用转意字符。
“冗余模式”的注释被忽略。同样是以#号开头，一直到本行的最后。
用之前“精简模式”的例子来演示“冗余模式”，“冗余模式”主要是为了写注释，让以后阅读更方便，：
>>>pattern = ”’
^                                          # beginning of string
M{0,3}    # thousands – 0 to 3 Ms
(CM|CD|D?C{0,3})   # hundreds – 900 (CM), 400 (CD), 0-300 (0 to 3 Cs),
# or 500-800 (D, followed by 0 to 3 Cs)
(XC|XL|L?X{0,3})        # tens – 90 (XC), 40 (XL), 0-30 (0 to 3 Xs),
# or 50-80 (L, followed by 0 to 3 Xs)
(IX|IV|V?I{0,3})           # ones – 9 (IX), 4 (IV), 0-3 (0 to 3 Is),
# or 5-8 (V, followed by 0 to 3 Is)
$                                         # end of string
”’
>>>re.search(pattern, ‘M’, re.VERBOSE)
可以匹配到内容

（8）
>>> phonePattern = re.compile(r’^(\d{3})-(\d{3})-(\d{4})$’)
>>> phonePattern.search(‘800-555-1212’).groups()
(‘800’, ‘555’, ‘1212’)
groups()方法可以将返回一个元组（tuple），是在正则表达式中定义好的分组，每个分组都是用括号括起来的。
（PS:search()和groups()不要连在一起用，因为当没有匹配到内容时，search()会返回None，而None是没有groups()方法的，这时会引发一个异常，如：
>>> pattern = r’^(\d{3})-(\d{3})-(\d{4})-?(\d{4})?$’
>>> re.search(pattern, ‘800-555-12df’).groups()
Traceback (most recent call last):
File “<stdin>”, line 1, in <module>
AttributeError: ‘NoneType’ object has no attribute ‘groups’）

（9）方括号[]：

精确匹配方括号中的一个字符，如[abc]代表仅匹配a或b或c中的一个。
re.sub(str1,str2,str3)，在str3中找str1，然后用str2代替。替换所有，而不是第一个找到的。
[^abc]意味着：不包含a，b，c这三个字符。
re.sub(‘([^aeiou])y$’, r’\1ies’, ‘vacancy’)中的\1意味着匹配第一个组（一个括号就是一个组，如同上节的groups()函数一样，只是groups()反回所有组，而\1指向第一个组），本例中，排除了a,e,i,o,u字符后，第一个组只匹配到了c，并且要以cy结尾，而\1指向c，也就是用cies替换cy。可以有多个组，用数字向后递推增长就可以了：\2，\3

（10）findall(pattern, string)函数，在string中找到所有符合pattern的字符，并返回一个列表：
>>> import re
>>> re.findall('[0-9]+', '16 2-by-4s in rows of 8') ①
['16', '2', '4', '8'

（11）匹配最短可能的任意字符串（.*?）
>>> re.findall(' s.*? s', "The sixth sick sheikh's sixth sheep's sick.")
[' sixth s', " sheikh's s", " sheep's s"]

（12）

Hello World

New Begining

第5章正则表达式

2016年3月25日 skiron Comments 0 Comment

发表回复取消回复

发表回复 取消回复

发表回复取消回复