正则表达式教程之前后查找lookaround详解
本文实例讲述了正则表达式教程之前后查找lookaround。分享给大家供大家参考,具体如下
注在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用Java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通过。
一、问题引入
在HTML页面中,匹配出一对标签之间的文本,如匹配出页面的标签,即<title>与</title>之间的文本
文本<head><TITLE>wele to my page</title></head>
正则表达式<[Tt][Ii][Tt][Ll][Ee]>.?</ [Tt][Ii][Tt][Ll][Ee]>
结果<head>【<TITLE>wele to my page</title>】</head>
分析<[Tt][Ii][Tt][Ll][Ee]>表示不区分大小写,这个模式匹配到了title标签以及它们之间的文本,并不完美,因为我们只想要title标签之间的文本,而不包括标签本身。解决这个问题我们就需要用到前后查找(lookaround)。
二、向前查找
向前查找指定了一个必须匹配但不在结果中返回的模式。向前查找实际上就是一个子表达式,它以?=开头,需要匹配的文本跟在=的后面。
看一个匹配出一个URL地址中协议部分的例子
文本http://blog.csdn./mhmyqn
正则表达式.+(?=:)
结果【http】://blog.csdn./mhmyqn
分析URL地址中协议部分是在:之前的部分,模式.+匹配任意文本,子表达式(?=:)匹配:,被匹配到的:并没有出现在结果中。我们使用?=向正则表达式引擎表明,只要找到:就行了,但不包括在最终的返回结果里。这里如果不使用向前匹配(?=:),而是直接使用(:),那么匹配结果就会是http:了,它包括了:,并不是我们想要的。
注意前后查找中的前、后是指模式与被查找文本的相对位置而言的,左为前,右为后。即向前查找为xxx(?=xxx),而向后查找为(?<=xxx)xxx,向后查找在接下来会介绍到。
三、向后查找
向后查找操作符是?<=。并不是所有的正则表达式实现都支持向后查找,JavaScript就不支持,java语言支持向后查找。
比如要查找文本当中的价格(以$开头,后面跟数字),结果不包含货币符号
文本category1:$136.25,category2:$28,category3:$88.60
正则表达式(?<=\$)\d+(\.\d+)?
结果category1:$【136.25】,category2:$【28】,category3:$【88.60】
分析(?<=\$)模式匹配$,\d+(\.\d+)?模式匹配整数或小数。从结果可以看出,结果不没有包括货币符号,只匹配出了价格。如果不使用向后查找,情况会是什么样呢?使用模式$\d+(\.\d+)?,这样会把$包含在结果中。使用模式\d+(\.\d+)?,又会把categery1(23)中的数字也匹配出来,都不是我们想要的。
注意向前查找模式的长度是可变的,它们可以包含.、、+之类的元字符;而向后查找模式只能是固定长度,不能包含.、、+之类的元字符。
四、把向前查找和向后查找结合起来
把向前查找和向后查找结合起来使用,即可解决前面HTML标签之间的文本的问题
文本<head><TITLE>wele to my page</title></head>
正则表达式(?<=<[Tt][Ii][Tt][Ll][Ee]>).?(?=</ [Tt][Ii][Tt][Ll][Ee]>)
结果<head><TITLE>【wele to my page】</title></head>
分析从结果可以看出,问题完美的解决了。(?<=<[Tt][Ii][Tt][Ll][Ee]>)是一个向后操作,它匹配<title>但不消费它,(?=</[Tt][Ii][Tt][Ll][Ee]>)是一个向前操作,它匹配</title>但不消费它。最终返回的匹配结果只包含了标签之间的文本了。
五、对前后查找取非
前面说到的向前查找和向后查找通常都是用来匹配文本,其目的是为了确定将被返回的匹配结果的文本的位置(通过指定匹配结果的前后必须是哪些文本)。这种用法叫正向前查找和正向后查找。还有一种负向前查找和负向后查找,是查找那些不与给定模式相匹配的文本。
前后查找的操作符
(?=) | 正向前查找 |
(?!) | 负向前查找 |
(?<=) | 正向后查找 |
(?<!) | 负向后查找 |
比如一段文本中即有价格(以$开头,后面跟数字)和数量,我们要找出价格和数量,先来看查找价格
文本I paid $30 for 10 apples, 15 oranges, and 10 pears. I saved $5 onthis order.
正则表达式(?<=\$)\d+
结果I paid 【$30】 for 10 apples, 15 oranges, and 10 pears. I saved 【$5】 on thisorder.
查找数量
文本I paid $30 for 10 apples, 15 oranges, and 10 pears. I saved $5 onthis order.
正则表达式\b(?<!\$)\d+\b
结果I paid $30 for 【10】 apples, 【15】 oranges, and 【10】pears. I saved $5 on this order.
分析(?<!\$)表示一个负向后查找,它使得结果只包含那些不以$开头的数值。
六、小结
有了前后查找,就可以对最终的匹配结果包含哪些内容做出精确的控制。前后查找操作使我们可以利用子表达式来指定文本匹配操作发生的位置,并收到只匹配不消费的效果。
PS这里再为大家提供2款非常方便的正则表达式工具供大家参考使用
JavaScript正则表达式在线测试工具
正则表达式在线生成工具
希望本文所述对大家正则表达式学习有所帮助。
编程语言
- 如何快速学会编程 如何快速学会ug编程
- 免费学编程的app 推荐12个免费学编程的好网站
- 电脑怎么编程:电脑怎么编程网咯游戏菜单图标
- 如何写代码新手教学 如何写代码新手教学手机
- 基础编程入门教程视频 基础编程入门教程视频华
- 编程演示:编程演示浦丰投针过程
- 乐高编程加盟 乐高积木编程加盟
- 跟我学plc编程 plc编程自学入门视频教程
- ug编程成航林总 ug编程实战视频
- 孩子学编程的好处和坏处
- 初学者学编程该从哪里开始 新手学编程从哪里入
- 慢走丝编程 慢走丝编程难学吗
- 国内十强少儿编程机构 中国少儿编程机构十强有
- 成人计算机速成培训班 成人计算机速成培训班办
- 孩子学编程网上课程哪家好 儿童学编程比较好的
- 代码编程教学入门软件 代码编程教程