超强变态的正则(\w)((?=\1\1\1)(\1))+介绍_F11 - 专业站长和开发者的学习网站

分享到

超强变态的正则(\w)((?=\1\1\1)(\1))+介绍

正则表达式 来源：互联网搜集作者：秩名发布时间：2020-02-22 20:01:18 人浏览

摘要

这个正则出自这个网站 http://www.regexlab.com/zh/regref.htm 正向预搜索：(?=xxxxx)，(?!xxxxx) 格式：(?=xxxxx)，在被匹配的字符串中，它对所处的缝隙或者两头附加的条件是：所在缝隙的右侧，必须能够匹配上 xxxxx 这部分的表达式。因为它只是在此作

这个正则出自这个网站

正向预搜索："(?=xxxxx)"，"(?!xxxxx)"

格式："(?=xxxxx)"，在被匹配的字符串中，它对所处的 "缝隙" 或者 "两头" 附加的条件是：所在缝隙的右侧，必须能够匹配上 xxxxx 这部分的表达式。因为它只是在此作为这个缝隙上附加的条件，所以它并不影响后边的表达式去真正匹配这个缝隙之后的字符。这就类似 "\b"，本身不匹配任何字符。"\b" 只是将所在缝隙之前、之后的字符取来进行了一下判断，不会影响后边的表达式来真正的匹配。

点击测试举例1：表达式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 时，将只匹配 "Windows NT" 中的 "Windows "，其他的 "Windows " 字样则不被匹配。

点击测试举例2：表达式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 时，将可以匹配6个"f"的前4个，可以匹配9个"9"的前7个。这个表达式可以读解成：重复4次以上的字母数字，则匹配其剩下最后2位之前的部分。当然，这个表达式可以不这样写，在此的目的是作为演示之用。

例子：例如 999999999 或 666666

1、(\w)((?=\1\1\1)(\1))+

最后的+号意思是一个或多个意思就是 666666之匹配前四个6，而999999999只匹配前面7个，后面反正要留两个
因为用了(?=\1\1)，每次只匹配两个，但保证右侧有99，每次都取两个，每次都包括之前的一个

(\w)((?=\1\1\1)(\1))+在999999999 中实际上是被匹配了6次。
第一次：(\w)取出第一个9，(?=\1\1\1)限定第2个9到第4个9，(\1)取出第2个9，得到99
第二次：(?=\1\1\1)限定第3个9到第5个9，(\1)取出第3个9，得到999
第三次：(?=\1\1\1)限定第4个9到第6个9，(\1)取出第4个9，得到9999
第四次：(?=\1\1\1)限定第5个9到第7个9，(\1)取出第5个9，得到99999
第五次：(?=\1\1\1)限定第6个9到第8个9，(\1)取出第6个9，得到999999
第六次：(?=\1\1\1)限定第7个9到第9个9，(\1)取出第7个9，得到9999999

2、(\w)((\1)(?=\1\1))+

第一次 \w取出第一个9，\1再取1个9就是 99 后面紧跟两个9才符合条件所有第一次就是99
第二次从第3个9到第四个9，开始就\1 再取一个 999
第三次匹配从第4-6个9 取一个 9999
第四次从第5-7个9取一个取一个99999
第五次从第6-8个9 取一个是 999999
第六次从第7-9个9 后面仍满足取一个是 9999999
第七次第8个开始右侧已经不够三个9了，所有取消匹配，匹配之前的7个9

3、 (?<=<(\w+)>).*(?=<\/\1>)

详细解释下：?<=和?=都表示零宽断言，一个匹配后面一个匹配前面，
对应到上面的例子中，亦即.*前面必须要有<(\w+)>，后面必须要有<\/\1>。
零宽断言不体现到最终的匹配结果中。
再细看下，<(\w+)>匹配<tag>类型，\w表示数字、字母、下划线；<\/\1>中\/匹配斜杠/，
\1表示捕获组，亦即从正则表达式左边开始的第一个小括号中的内容，注意这里不包含零宽断言的括号，在上例中表示(\w+)中的部分。
中间的.*表示任意多个非换行符。

总结下：匹配类似<tag>content</tag>格式中的content部分

不过经过测试网页版的js匹配不到，还是中比较好用，推荐大家下载学习

网页版看不到效果

用软件就可以

所有大家在使用的时候，要测试你的语言是否支持。

正则表达式看懂的最好方法就是一步步分开解析：

1）以 '.*' 为分界，前面括号中的内容可以划分为 ‘？<=' 和 ‘<(\w+)>',其中‘<(\w+)>'表示匹配尖括号里面是字母、数字或下划线的内容，类似<span>，外面还要加个括号是要实现分组；而‘？<='用到的是零宽断言语法，表示的是断定‘<(\w+)>'后面有或没有内容，而且与内容的间隔宽度为零。
2）再看' .* '后面的部分，括号里面的内容可以分为 ‘？=' 和 ‘<(\/\1>',其中‘？='用零宽断言表示匹配‘<(\/\1>'前面的部分，而对于‘<(\/\1>'，‘\/'匹配‘/'符号，类似</span>,这里可能有些同学不太明白‘\1'是什么意思？这里用到的是捕获分组的思想，上述提到的‘<(\w+)>'外面加个小括号就表示一个分组，对于正则表达式的分组结果，索引 0表示匹配的整个内容，而1表示的是第1个子分组，所以这里的'\1'指向的就是前面的第一个分组‘<(\w+)>'，\2表示重复第2个子项，\n表示重复第n个子项；
3）.* 就比较简单了，表示的是匹配除了换行符意外的任意字符0次或多次。
综上，改表达式匹配的是类似html标签这种内容的，如<body>你好，正则！</body>

下面是脚本之家小编写的打算将不带style的span替换为空的正则。

str=str.replace(/<span\s*?(?!:style)>(.[^<>]*)<\/span>/ig,"$1");

不可能用的，要不所有的内容都乱了。

文中相关测试工具

下面接这个为大家分享这几个高级规则

预搜索，不匹配；反向预搜索，不匹配
前面的章节中，我讲到了几个代表抽象意义的特殊符号："^"，"$"，"\b"。它们都有一个共同点，那就是：它们本身不匹配任何字符，只是对 "字符串的两头" 或者 "字符之间的缝隙" 附加了一个条件。理解到这个概念以后，本节将继续介绍另外一种对 "两头" 或者 "缝隙" 附加条件的，更加灵活的表示方法。

正向预搜索："(?=xxxxx)"，"(?!xxxxx)"

点击测试举例1：表达式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 时，将只匹配 "Windows NT" 中的 "Windows "，其他的 "Windows " 字样则不被匹配。

格式："(?!xxxxx)"，所在缝隙的右侧，必须不能匹配 xxxxx 这部分表达式。

点击测试举例3：表达式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 时，将从头一直匹配到 "stop" 之前的位置，如果字符串中没有 "stop"，则匹配整个字符串。

点击测试举例4：表达式 "do(?!\w)" 在匹配字符串 "done, do, dog" 时，只能匹配 "do"。在本条举例中，"do" 后边使用 "(?!\w)" 和使用 "\b" 效果是一样的。

反向预搜索："(?<=xxxxx)"，"(?<!xxxxx)"

这两种格式的概念和正向预搜索是类似的，反向预搜索要求的条件是：所在缝隙的 "左侧"，两种格式分别要求必须能够匹配和必须不能够匹配指定表达式，而不是去判断右侧。与 "正向预搜索" 一样的是：它们都是对所在缝隙的一种附加条件，本身都不匹配任何字符。

举例5：表达式 "(?<=\d{4})\d+(?=\d{4})" 在匹配 "1234567890123456" 时，将匹配除了前4个数字和后4个数字之外的中间8个数字。由于 JScript.RegExp 不支持反向预搜索，因此，本条举例不能够进行演示。很多其他的引擎可以支持反向预搜索，比如：Java 1.4 以上的 java.util.regex 包，.NET 中System.Text.RegularExpressions 命名空间，以及本站推荐的最简单易用的 DEELX 正则引擎。

您可能感兴趣的文章 :

原文链接 : https://www.jb51.net/article/181088.htm

Tag : 正则(4)

正则表达式校验日期时间格式的方法

日期部分校验概念首先，我们先了解2个概念： 1、合法的日期范围： DateTime值类型表示值范围在公元（基督纪元）0001 年 1 月 1 日午夜 12
如何使用正则表达式对输入数字进行匹配

最近有一个区间范围限制，一般255数字以下的都能在网上薅到，但是需要弄一个int16、int32、int64范围的输入限制......在网上逛了很久都没找
最实用的正则表达式的整理

想要白嫖正则是吧？本篇就一次给你个够！先冲 100 个！（如果还觉得不够就评论反馈后再加，本篇持续更新加码！！）点赞再看，养成好
停止编写API函数原因介绍

RESTFUL API 通常提供在不同实体上执行增删改查（CRUD）操作的一组接口。我们通常在我们的前端项目中为这些每一个接口提供一个函数，这些
正则表达式的基本语法汇总介绍

1.正则表达式的基本语法 1.1两个特殊符号 ^ 和 $ ^ 正则表达式的起始符 ^tom 表示所有以tom开头的字符串 $ 正则表达式的结束符 lucy$ 表示所有
正则表达式基础语法以及应用介绍

一、正则表达式 1、基本介绍 ? 概述一个正则表达式，就是用某种模式去匹配字符串的一个公式。很多人因为它们看上去比较古怪而且复杂
正则表达式从HTML中匹配img标签的图片地址

前言有玩过爬虫的人应该都有过在又臭又长的HTML中找寻信息的经历，虽然有各种工具和各种框架可以辅助查找，但是解析HTML的规则也是人
Snort中pcre和正则表达式的使用介绍

1. 题目描述 If snort see two packets in a TCP flow with first packet has login or Initial in payload, destination port is 3399;and second packet has a IPv4Address:Portstring(E.g
在nest.js中通过正则表达式正确设置验证的方法

下面看下nest.js正则表达式设置验证的方法，代码如下所示： 1 2 3 4 import { IsNotEmpty, Length, Matches, Max, Min } from class-validator; const phoneReg = /^1(3
shell脚本中的正则表达式介绍

正则表达式的概念及特点：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成