Python如何使用组合方式构建复杂正则_F11 - 专业站长和开发者的学习网站

本站首页收藏本站

广告位联系

APP正在开发中...

返回顶部

分享到

Python如何使用组合方式构建复杂正则

python 来源：互联网作者：佚名发布时间：2024-12-03 21:28:16 人浏览

摘要

正则写复杂了很麻烦，难写难调试，只需要两个函数，就能用简单正则组合构建复杂正则：比如输入一个字符串规则，可以使用{name}引用前面定义的规则： 1 2 3 4 5 6 7 8 9 10 11 12 # rules definitio

正则写复杂了很麻烦，难写难调试，只需要两个函数，就能用简单正则组合构建复杂正则：

比如输入一个字符串规则，可以使用 {name} 引用前面定义的规则：

# rules definition

rules = r'''

protocol = http|https

login_name = [^:@\r\n\t ]+

login_pass = [^@\r\n\t ]+

host = [^:/@\r\n\t ]+

port = \d+

optional_port = (?:[:]{port})?

path = /[^\r\n\t ]*

url = {protocol}://({login}[@])?{host}{optional_port}{path}?

'''

然后调用 regex_build 函数，将上面的规则转换成一个字典并输出：

结果：

protocol = (?P<protocol>http|https)
login_name = (?P<login_name>[^:@\r\n\t ]+)
login_pass = (?P<login_pass>[^@\r\n\t ]+)
login = (?P<login>(?P<login_name>[^:@\r\n\t ]+)(:(?P<login_pass>[^@\r\n\t ]+))?)
host = (?P<host>[^:/@\r\n\t ]+)
port = (?P<port>\d+)
optional_port = (?P<optional_port>(?:[:](?P<port>\d+))?)
path = (?P<path>/[^\r\n\t ]*)
url = (?P<url>(?P<protocol>http|https)://((?P<login>(?P<login_name>[^:@\r\n\t ]+)(:(?P<login_pass>[^@\r\n\t ]+))?)[@])?(?P<host>[^:/@\r\n\t ]+)(?P<optional_port>(?:[:](?P<port>\d+))?)(?P<path>/[^\r\n\t ]*)?)

用手写直接写是很难写出这么复杂的正则的，写出来也很难调试，而组合方式构建正则的话，可以将小的简单正则提前测试好，要用的时候再组装起来，就不容易出错，上面就是组装替换后的结果。

下面用里面的 url 这个规则来匹配一下：

# 使用规则 "url" 进行匹配

pattern = m['url']

s = re.match(pattern, 'https://name:pass@www.baidu.com:8080/haha')

# 打印完整匹配结果

print('matched: "%s"'%s.group(0))

print()

# 打印分组匹配结果

for name in ('url', 'login_name', 'login_pass', 'host', 'port', 'path'):

print('subgroup:', name, '=', s.group(name))

输出：

match text with pattern "url"
matched: "https://name:pass@www.baidu.com:8080/haha"

subgroup: url = https://name:pass@www.baidu.com:8080/haha
subgroup: login_name = name
subgroup: login_pass = pass
subgroup: host = www.baidu.com
subgroup: port = 8080
subgroup: path = /haha

可以取完整结果，也可以按照规则名字，取得里面具体某个部件得匹配结果。

这下可以方便的写复杂正则表达式了。

再 Python 的正则表达式里 {xxx} 是用来表示长度的，里面都是数字，如果里面是变量名的话不会和原有规则冲突，因此这个写法是安全的。

实现代码：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

import re

# 将 pattern 里形如 {name} 的文本，用 macros 里的预定义规则替换

def regex_expand(macros, pattern, guarded = True):

output = []

pos = 0

size = len(pattern)

while pos < size:

ch = pattern[pos]

if ch == '\\':

output.append(pattern[pos:pos + 2])

pos += 2

continue

elif ch != '{':

output.append(ch)

pos += 1

continue

p2 = pattern.find('}', pos)

if p2 < 0:

output.append(ch)

pos += 1

continue

p3 = p2 + 1

name = pattern[pos + 1:p2].strip('\r\n\t ')

if name == '':

output.append(pattern[pos:p3])

pos = p3

continue

elif name[0].isdigit():

output.append(pattern[pos:p3])

pos = p3

continue

elif ('<' in name) or ('>' in name):

raise ValueError('invalid pattern name "%s"'%name)

if name not in macros:

raise ValueError('{%s} is undefined'%name)

if guarded:

output.append('(?:' + macros[name] + ')')

else:

output.append(macros[name])

pos = p3

return ''.join(output)

# 给定规则文本，构建规则字典

def regex_build(code, macros = None, capture = True):

defined = {}

if macros is not None:

for k, v in macros.items():

defined[k] = v

line_num = 0

for line in code.split('\n'):

line_num += 1

line = line.strip('\r\n\t ')

if (not line) or line.startswith('#'):

continue

pos = line.find('=')

if pos < 0:

raise ValueError('%d: not a valid rule'%line_num)

head = line[:pos].strip('\r\n\t ')

body = line[pos + 1:].strip('\r\n\t ')

if (not head):

raise ValueError('%d: empty rule name'%line_num)

elif head[0].isdigit():

raise ValueError('%d: invalid rule name "%s"'%(line_num, head))

elif ('<' in head) or ('>' in head):

raise ValueError('%d: invalid rule name "%s"'%(line_num, head))

try:

pattern = regex_expand(defined, body, guarded = not capture)

except ValueError as e:

raise ValueError('%d: %s'%(line_num, str(e)))

try:

re.compile(pattern)

except re.error:

raise ValueError('%d: invalid pattern "%s"'%(line_num, pattern))

if not capture:

defined[head] = pattern

else:

defined[head] = '(?P<%s>%s)'%(head, pattern)

return defined

# 定义一套组合规则

rules = r'''

protocol = http|https

login_name = [^:@\r\n\t ]+

login_pass = [^@\r\n\t ]+

host = [^:/@\r\n\t ]+

port = \d+

optional_port = (?:[:]{port})?

path = /[^\r\n\t ]*

url = {protocol}://({login}[@])?{host}{optional_port}{path}?

'''

# 将上面的规则展开成字典

m = regex_build(rules, capture = True)

# 输出字典内容

for k, v in m.items():

print(k, '=', v)

print()

# 用最终规则 "url" 匹配文本

pattern = m['url']

s = re.match(pattern, 'https://name:pass@www.baidu.com:8080/haha')

# 打印完整匹配

print('matched: "%s"'%s.group(0))

print()

# 按名字打印分组匹配

for name in ('url', 'login_name', 'login_pass', 'host', 'port', 'path'):

print('subgroup:', name, '=', s.group(name))

完事，主要逻辑 84 行代码。

您可能感兴趣的文章 :

原文链接 :

Tag : python(997)

基于Python制作一个全自动微信清粉小工具

在当今社交软件中，微信是最常用的通讯工具之一。然而，随着时间的推移，我们的好友列表中可能会出现一些不再活跃的账号，也就是我
YOLOv8模型pytorch格式转为onnx格式的步骤介绍

一、YOLOv8的Pytorch网络结构 yolov8网络从1-21层与pt文件相对应是BackBone和Neck模块，22层是Head模块。二、转ONNX步骤 2.1 yolov8官方 1 2 3 4 5 6 7 8 9
Python中addict库使用Dict的类

from addict import Dict这行代码导入了 Dict 类，它来自于 addict 模块。在这个上下文中，addict 是一个 Python 库，它提供了一个名为 Dict 的类，用于
Python利用标签实现清理微信好友的自动化脚本

微信已经成为我们日常生活中不可或缺的社交工具。随着使用时间的增长，我们的微信好友列表可能会变得越来越臃肿。在上一篇文章中，
Python判断空的五种方法介绍

一、使用if语句判断在Python中，可以使用if语句判断一个变量是否为空，若为空，则可以执行相应的操作。此处判断的是var是否为None，如果
Python的json模块中json.load()和json.loads()的区别

json.load和json.loads都是Python的json模块中用于解析JSON数据的方法，但它们之间有一些重要的区别。 1. json.load json.load用于从一个文件对象中读取
Python遍历文件和文件路径拼接介绍

一、os.walk()文件（夹）读取遍历指定路径下的所有文件和文件夹示例代码如下 1 2 3 4 5 6 7 8 9 10 mdfFolder= D:\hanshan\MDF for root, dirs, files in os.w
Python如何使用组合方式构建复杂正则

正则写复杂了很麻烦，难写难调试，只需要两个函数，就能用简单正则组合构建复杂正则：比如输入一个字符串规则，可以使用{name}引用前
4个必学的Python自动化技巧

在当今快节奏的工作环境中，自动化是提升效率的重要手段。Python作为一种强大且易用的编程语言，在自动化领域有着广泛的应用。本文将
Python获取Windows桌面路径的三种方法

1 概述因为某些原因，需要使用不同用户的 Windows 桌面路径，故无法对路径进行固定，可使用下列方法进行获取 2 方法 2.1 方法1：使用 os 模