君子以泽,小说阅读网,大主宰txt全集下载

主頁 > 知識庫 > 淺談Python中的正則表達式

淺談Python中的正則表達式

Python里的正則表達式

Python里的正則表達式，無需下載外部模塊，只需要引入自帶模塊：re：

import re

官方re模塊文檔： https://docs.python.org/zh-cn/3.9/library/re.html

同時，Python的正則表達式是PCRE標準的，相較于廣泛應(yīng)用在Unix上的POSIX標準，還是有些區(qū)別的（主要是簡化）

基本方法

觀察re源碼，其主要的接口方法有：

match(…)：從字符串的起始位置匹配一個模式，如果無法匹配成功，則match()就返回none
fullmatch(…)：是match函數(shù)的完全匹配（從字符串開頭到結(jié)尾）版本
search(…)：掃描整個字符串并（默認）返回第一個成功的匹配
sub(…)：用于替換字符串中的匹配項
subn(…)：和sub(…)類似，但返回值多一個替換次數(shù)
split(…)：分割字符串，返回列表形式f
indall(…)：在字符串中找到正則表達式所匹配的所有子串，并返回一個列表形式，如果沒有找到匹配的，則返回空列表。finditer(…)：和 findall 類似，在字符串中找到正則表達式所匹配的所有子串，并把它們作為一個迭代器返回
compile(…)：用于編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數(shù)使用
purge(…)：用于清除正則表達式緩存

其中，本文主要會介紹的方法為：match(...)、search(...)、findall(...)和spilt(...)。不過，方法都類似，會這些方法，剩下的也大同小異。

元字符與預(yù)定義字符集

我認為，元字符算和預(yù)定義字符集是正則表達式的核心內(nèi)容了。

預(yù)定義字符集:

預(yù)定義字符	說明
\w	匹配下劃線“”或任何字母（a-zA-Z）與數(shù)字（0-9）等價于a-zA-Z0-9
\W	與\w相反，匹配特殊字符等價于^a-zA-Z0-9_
\s	匹配任意的空白字符，等價于空格>\r\n\f\v
\S	與\s相反，匹配任意非空白字符的字符，等價于^\s
\d	匹配任意數(shù)字，等價于0-9
\D	與\d相反，匹配任意非數(shù)字的字符，等價于^\d
\b	匹配單詞的邊界
\B	與\b相反，匹配不出現(xiàn)在單詞邊界的元素
\A	僅匹配字符串開頭，等價于^
\Z	僅匹配字符串結(jié)尾，等價于$

元字符：

元字符	說明
.	匹配任何一個字符（除換行符\n除外）
^	脫字符，匹配行的開始
$	美元符，匹配行的結(jié)束
\|	連接多個可選元素，匹配表達式中出現(xiàn)的任意子項
[]	字符組，匹配其中的出現(xiàn)的任意一個字符
-	連字符，表示范圍，如“1-5”等價于“1、2、3、4、5”
?	匹配其前導元素0次或1次
*	匹配其前導元素0次或多次
+	匹配其前導元素1次或多次
{n}/{m,n}	匹配其前導元素n次/匹配其前導元素m~n次
()	在模式中劃分出子模式，并保存子模式的匹配結(jié)果

一般來說，使用+、?、*、{n}、{n,}和{n,m}時，即激活正則表達式的貪婪模式?？梢栽谄浜蠹尤?code>?來取消貪婪模式。

貪婪模式

一般來見，重復多次匹配就是貪婪模式，也就是盡可能匹配多個字符。

比如：

import re

lineOne = "Who is the Mintimate"
# 貪婪模式
print(re.findall(r'\w+',lineOne))
# 非貪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

輸出：

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到，使用**?**來激活非貪婪模式，基本是讓多次匹配無效化。

捕獲與非捕獲括號

之所以捕獲與非捕獲括號單獨出來講，其實是我當時學習正則時候，這邊卡了很久。

捕獲括號：()
非捕獲括號：(?:)

捕獲括號其實就是代碼里的優(yōu)先級一樣，比如：

2*(2+3)=10

之所以，我們會先算2+3，是因為有**()的存在。正則里也是，如果存在()**，則會優(yōu)先捕獲()內(nèi)的內(nèi)容：

import re

lineOne = "Who is Mintimate?"
# 未使用捕獲括號
print(re.findall(r'Mintimate',lineOne))
# 使用捕獲括號
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕獲括號
print(re.findall(r'M(?:intimate)',lineOne))

輸出結(jié)果：

['Mintimate']
['intimate']
['Mintimate']

而非捕獲括號主要與|同時使用：

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

輸出結(jié)果：

['Mintimate', 'Minimen']

正則匹配（判斷目標格式）

主要講解Python下的幾個方法使用方法。

match匹配

match(…)即：

re.match(pattern, string, flags=0)

參數(shù)的具體含義如下：

pattern：表示需要傳入的正則表達式。
string：表示待匹配的目標文本。
flags：表示使用的匹配模式。如：是否區(qū)分大小寫，多行匹配等等。可省略，默認為0

使用match進行正則匹配，可以方便我們對字符串內(nèi)類型的判斷，如：是否為純數(shù)字或第一位數(shù)否為數(shù)字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

輸出結(jié)果：

re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中，\d為匹配0-9的數(shù)字類型，而+是匹配出現(xiàn)1次或多次。

正則搜索（提取/分組字符）

正則搜索，常用的是search和findall方法了，方法體均一樣：

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march類似，均是匹配字符串內(nèi)容，不符合返回None。但是主要區(qū)別：

re.match() 從第一個字符開始找, 如果第一個字符就不匹配就返回None, 不繼續(xù)匹配. 用于判斷字符串開頭或整個字符串是否匹配,速度快。
re.search() 會整個字符串查找,直到找到一個匹配。

代碼中更形象：

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
# 使用match搜索純數(shù)字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索純數(shù)字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索復合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索復合字符串
print(re.search(r"\d", lineTwo))

其輸出結(jié)果：

re.Match object; span=(0, 1), match='7'>
re.Match object; span=(0, 1), match='7'>
None
re.Match object; span=(31, 32), match='7'>

而findall，在上match和search的前提下，進一步封裝。相對于強化版的match和search：

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is：7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

輸出結(jié)果：

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提?。?/p>

print(re.findall(r"\d+",lineTwo))

輸出：

['7704194']

方便在數(shù)據(jù)處理時，快速提取連續(xù)數(shù)字╮(￣▽￣"")╭。

操作實例

單單看文檔，總是不實際。這邊我演示幾個正則表達式的實例（我根據(jù)我自己使用環(huán)境所寫，可能在其他特殊環(huán)境有問題）

URL去參

在寫爬蟲時候，有時候得到的URL是帶標簽（#）或者Get請求（?id=*）的，但是有時候我們需要去除這些參數(shù)，得到純凈的URL地址，這個時候可以用正則表達式：

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果：

['https://www.mintimate.cn']
['https://www.mintimate.cn']

這里主要的細節(jié)：

https?：匹配http或https
(?😃：非捕獲括號，用于和后續(xù)|進行配合

IPv4匹配

用正則匹配IPv4就比較復雜了，我是這樣寫的：

import re

lineOne = "192.168.1.1"
lineTwo="這不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

輸出結(jié)果為：

re.Match object; span=(0, 11), match='192.168.1.1'>
None

解釋一下：

末尾的{3}，代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重復三次匹配，
而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我們可以拆分為兩部分，(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}：前者是匹配首位為2開頭、第二位為1到5或1到4、最后一位為0到9；后者是匹配第一位為0或1，且?代表可以不存在這一項，后兩位為兩位0-9的數(shù)字。

效率問題

使用正則表達式，很大程度是為了精簡代碼，但是存在一下問題：

代碼可讀性降低：普通的匹配數(shù)字還好，但是如果都像IPv4這樣的，一定程度可讀性就降低了，維護成本高（雖然后期一般不回去改）
解析時間長：這個還是要看具體代碼，但是總的來說：貪婪模式相比懶惰模式以及獨占模式有一個回溯過程，消耗資源會更多。

解決方案：

一條正則表達式規(guī)則如果運用上百次，可以使用compile()方法進行預(yù)先加載。
減少使用貪婪模式。

總結(jié)

正則表達式是一個很重要的工具，尤其是在Python數(shù)據(jù)處理時，能高效處理問題事件?？赐赀@篇文章后，應(yīng)該對正則表達式不在陌生，感興趣可以自己寫個正則規(guī)則，如：強密碼判斷、IPv6的判斷等。

另外，因為篇幅所限，更多Python內(nèi)的細則，可以參考官方文檔：

https://docs.python.org/zh-cn/3.9/library/re.html

到此這篇關(guān)于淺談Python中的正則表達式的文章就介紹到這了,更多相關(guān)Python正則表達式內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python演示解答正則為什么是最強文本處理工具
一篇文章帶你了解Python和Java的正則表達式對比
一篇文章徹底搞懂python正則表達式
超詳細講解python正則表達式
Python正則表達式保姆式教學詳細教程
帶你精通Python正則表達式
Python正則表達式中的量詞符號與組問題小結(jié)
一篇文章帶你了解python正則表達式的正確用法
Python正則表達式的應(yīng)用詳解
python正則表達式re.search()的基本使用教程
python正則表達式函數(shù)match()和search()的區(qū)別

標簽：湖北宜昌西寧佳木斯珠海盤錦潮州上饒

巨人網(wǎng)絡(luò)通訊聲明：本文標題《淺談Python中的正則表達式》，本文關(guān)鍵詞淺談,Python,中的,正則,表達式,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。