Python for Informatics 第11章之正则表达式（四）

注：以下文章原文来自于Dr Charles Severance 的《Python for Informatics》

11.3 组合查询和抽取

如果我们想以“X-”字符串开头的行中找到数字，就像下面两行字符串：

X-DSPAM-Confidence: 0.8475

X-DSPAM-Probability: 0.0000

但我们不只是要任意行中的任意浮点数，而是具备上面格式的行中的数字。

我们可以创建以下正则表达式来选择这样的行：

^X-.*: [0-9.]+

这个表达式的含义是以“X-”两个字符开头，后面跟了任意个字符“.*"，接着是一个冒号":"和空格" "，在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符，而是匹配真正的"."，这与方括号外的"."要予以区分。

这是一个非常紧凑的表达式，它将非常匹配我们感兴趣的行：

import re hand = open('mobx-short.txt') for line in hand: line = line.rstrip() if re.search('^X-.*: [0-9.]+', line) print(line)

当我们运行这个程序，我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.8475

X-DSPAM-Probability: 0.0000

X-DSPAM-Confidence: 0.6178

X-DSPAM-Probability: 0.0000

但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时，我们可以使用正则表达式的另一特点，一步达到查找和解析功能。

圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中，在字符串的匹配过程中它们将被忽略，但是当你使用findall()时，圆括号表示你想整个正则表达式被匹配，但是你只抽取位于圆括号内你感兴趣的那部分字符串。

所以我们对程序修改如下：

import re hand = open('mbox-short.txt') for line in hand: line = line.rstrip() x = re.findall('^X-.*: ([0-9.]+)', line) if len(x) > 0 : print(x)

我们在正则表达式中对匹配浮点数字部分添加圆括号，并且用findall()代替search()，返回我们想要的浮点数字部分。这个程序的输出如下：

['0.8475']

['0.0000']

['0.6178']

['0.0000']

['0.6961']

['0.0000']

虽然这些在列表中的数字还需要从字符串转换为浮点数，但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

下面是使用这个技巧的另一个案例。如果你查看文件，你会发现有许多行是这样的格式：

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

如果我们想用同样的技巧抽取所有修订号（行末尾的整数），我们可以这样编写代码：

import re hand = open('mbox-short.txt') for line in hand: line = line.rstrip() x = re.findall('^Details:.*rev=([0-9]+)', line) if len(x) > 0 : print(x)

我们的正则表达式的是这样的，以"Details:"开头，之后可以是任意字符”.*"，然后是"rev="，最后是一个以上的数字。我们希望行是匹配整个正则表达式，但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时，将得到以下输出：

['39772']

['39771']

['39770']

['39769']

...

记住，"[0-9]+"是贪婪的，它将尝试抽取任何可能的数字，所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展，只到它数到一个非数字的字符。

我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣，我们寻找的行的格式如下：

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词，然后我们对第五个单词基于冒号再次分离，拉出我们感兴趣的两个字符。

假定要查找的行是良好格式化的，那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效，而添加必要的错误检验（或者一个try/except块）时，这个代码将会膨胀到10-15行，并且难以读懂。

我们可以用下面的正则表达式使工作更简单：

^From .* [0-9][0-9]：

这个表达式的含义是以"From "开头（注意空格），然后跟着任意个字符".*"，接着又是一个空格，然后是两个数字"[0-9][0-9]"，再接着是一个冒号。我们要找的就是具备这样格式的行。

为了在findall中只抽出表示小时的两位数字，我们将表达式修改如下：

^From .* ([0-9][0-9])：

最后这个程序是这样的：

import re hand = open('mbox-short.txt') for line in hand: line = line.rstrip() x = re.findall('ˆFrom .* ([0-9][0-9]):', line) if len(x) > 0 : print(x)

程序运行结果如下：

['09']

['18']

['16']

['15']

...