正则表达式教程之重复匹配详解
本文实例讲述了正则表达式教程之重复匹配。分享给大家供大家参考,具体如下
注在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用Java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通过。
一、有多少个匹配
前面几篇讲的都是匹配一个字符,一个字符或字符集合要匹配多次,应该怎么做呢?比如要匹配一个电子邮件地址,用之前说到的方法,可能有人会写出像\w@\w\.\w这样的正则表达式,但这个只能匹配到像a@b.c这样的地址,明显是不正确的,接下来就来看看如何匹配电子邮件地址。
要知道电子邮件地址的组成以字母数字或下划线开头的一组字符,后面跟@符号,再后面是域名,即用户名@域名地址。不过这也跟具体的邮箱服务提供商有关,有的在用户名中也允许.字符。
1、匹配一个或多个字符
要想匹配同一个字符(或字符集合)的多次重复,只要简单地给这个字符(或字符集合)加上一个+字符作为后缀就可以了。+匹配一个或多个字符(至少一个)。如a匹配a本身,a+将匹配一个或多个连续出现的a;[0-9]+匹配多个连续的数字。
注意在给一个字符集合加上+后缀的时候,必须把+放在字符集合的外面,否则就不是重复匹配了。如[0-9+]这样就表示数字或+号了,虽然语法上正确,但不是我们想要的了。
文本Hello, mhmyqn@qq. or mhmyqn@126. is my email.
正则表达式\w+@(\w+\.)+\w+
结果Hello, 【mhmyqn@qq.】 or 【mhmyqn@126.】 is my email.
分析\w+可以匹配一个或多个字符,而子表达式(\w+\.)+可匹配像xxxx.edu.这样的字符串,而不会是.字符结尾,所以后面还会有一个\w+。像mhmyqn@xxxx.edu.这样的邮件地址也会匹配到。
2、匹配零个或多个字符
匹配零个或多个字符使用元符,它的用法和+完全一样,只要把它放在一下字符或字符集合的后面,就可以匹配该字符(或字符集合)连续出现零次或多次。如正则表达式abc可以匹配ac、abc、abbbbbc等。
3、匹配零个或一个字符
匹配零个或一个字符使用元字符?。像上一篇说到的匹配一个空白行使用正则表达式\r\n\r\n,但在Unix和Linux中不需要\r,就可以使用元字符?,\r?\n\r?\n这样既可匹配windows中的空白行,也可匹配Unix和Linux中的空白行。狼蚁网站SEO优化来看一个匹配http或https协议的URL的例子
文本The URL is http://.mikan., to connect securely use https://.mikan.instead.
正则表达式https?://(\w+\.)+\w+
结果The URL is 【http://.mikan.】, to connect securely use 【https://.mikan.】 instead.
分析这个模式以https?开头,表示?之前的一个字符可以有,也可以没有,所以它能匹配http或https,后面部分和前一个例子一样。
二、匹配的重复次数
正则表达式里的+、和?解决了很多问题,
1)+和匹配的字符个数没有上限。我们无法为它们将匹配的字符个数设定一个最大值。
2)+、和?至少匹配一个或零个字符。我们无法为它们将匹配的字符个数另行设定一个最小值。
3)如果只使用和+,我们无法把它们将匹配的字符个数设定为一个精确的数字。
正则表达式里提供了一个用来设定重复次数的语法,重复次数要用{和}字符来给出,把数值写在它们中间。
1、为重复匹配次数设定一个精确值
如果想为重复匹配次数设定一个精确的值,把那个数字写在{和}之间即可。如{4}表示它前面的那个字符(或字符集合)必须在原始文本中连续重复出现4次才算是一个匹配,如果只出现了3次,也不算是一个匹配。
如前面几篇中说到的匹配页面中颜色的例子,就可以用重复次数来匹配#[[:xdigit:]]{6}或#[0-9a-fA-F]{6},POSIX字符在java中是#\\p{XDigit}{6}。
2、为重复匹配次数设定一个区间
{}语法还可以用来为重复匹配次数设定一个区间,也就是为重复匹配次数设定一个最小值和最大值。这种区间必须以{n, m}这样的形式给出,其中n>=m>=0。如检查日期格式是否正确(不检查日期的有效性)的正则表达式(如日期2012-08-12或2012-8-12)\d{4}-\d{1,2}-\d{1,2}。
3、匹配至少重复多少次
{}语法的一种用法是给出一个最小的重复次数(但不必给出最大重复次数),如{3,}表示至少重复3次。注意{3,}中一定要有逗号,而且逗号后不能有空格。否则会出错。
来看一个例子,使用正则表达式把所有金额大于$100的金额找出来
文本
$25.36
$125.36
$205.0
$2500.44
$44.30
正则表达式$\d{3,}\.\d{2}
结果
$25.36
【$125.36】
【$205.0】
【$2500.44】
$44.30
+、、?可以表示成重复次数
+等价于{1,}
等价于{0,}
?等价于{0,1}
三、防止过度匹配
?只能匹配零个或一个字符,{n}和{n,m}也有匹配重复次数的上限,像、+、{n,}都没有上限值,这样有时会导致过度匹配的现象。
来看匹配一个html标签的例子
文本
Yesterday is <b>history</b>,tomorrow is a <B>mystery</B>, but today is a <b>gift</b>.
正则表达式<[Bb]>.</[Bb]>
结果
Yesterday is 【<b>history</b>,tomorrow is a <B>mystery</B>, but today is a <b>gift</b>】.
分析<[Bb]>匹配<b>标签(不区分大小写),</[Bb]>匹配</b>标签(不区分大小写)。但结果却不是预期的那样有三个,第一个</b>标签之后,一直到一个</b>之间的东西全部匹配出来了。
为什么会这样呢?因为和+都是贪婪型的元字符,它们在匹配时的行为模式是多多益善,它们会尽可能从一段文本的开头一直匹配到这段文本的末尾,而不是从这段文本的开头匹配到碰到第一个匹配时为止。
当不需要这种贪婪行为时,可以使用这些元字符的懒惰型版本。懒惰意思是匹配尽可能少的字符,与贪婪型相反。懒惰型元字符只需要给贪婪型元字符加上一个?后缀即可。狼蚁网站SEO优化是贪婪型元字符的对应懒惰型版本
?
+ +?
{n,} {n,}?
所以上面的例子中,正则表达式只需要改成<[Bb]>.?</[Bb]>即可,结果如下
<b>history</b>
<B>mystery</B>
<b>gift</b>
四、
正则表达式的真下威力体现在重复次数匹配方面。这里介绍了+、、?几种元字符的用法,如果要精确的确定匹配次数,使用{}。元字符分贪婪型和懒惰型两种,在需要防止过度匹配的场合下,请使用懒惰型元字符来构造正则表达式。在下一篇中将会介绍位置匹配。
PS这里再为大家提供2款非常方便的正则表达式工具供大家参考使用
JavaScript正则表达式在线测试工具
正则表达式在线生成工具
希望本文所述对大家正则表达式学习有所帮助。
编程语言
- 如何快速学会编程 如何快速学会ug编程
- 免费学编程的app 推荐12个免费学编程的好网站
- 电脑怎么编程:电脑怎么编程网咯游戏菜单图标
- 如何写代码新手教学 如何写代码新手教学手机
- 基础编程入门教程视频 基础编程入门教程视频华
- 编程演示:编程演示浦丰投针过程
- 乐高编程加盟 乐高积木编程加盟
- 跟我学plc编程 plc编程自学入门视频教程
- ug编程成航林总 ug编程实战视频
- 孩子学编程的好处和坏处
- 初学者学编程该从哪里开始 新手学编程从哪里入
- 慢走丝编程 慢走丝编程难学吗
- 国内十强少儿编程机构 中国少儿编程机构十强有
- 成人计算机速成培训班 成人计算机速成培训班办
- 孩子学编程网上课程哪家好 儿童学编程比较好的
- 代码编程教学入门软件 代码编程教程