عبارت منظم (Regex)
عبارت منظم (Regex) دنباله ای از کاراکترهاست که یک الگوی جستجو را تشکیل می دهد. در پایتون با استفاده از ماژول داخلی re
می توان رشته ها را بر اساس این الگوها بررسی و پردازش کرد.
ماژول re
برای استفاده از عبارات منظم باید ماژول re
را import کنید:
import re
نمونه استفاده
در این مثال بررسی می کنیم که آیا رشته با The شروع شده و با Spain به پایان می رسد یا خیر:
import re
txt = "The rain in Spain"
x = re.search("^The.*Spain$", txt)
توابع پرکاربرد Regex
ماژول re
چند تابع اصلی برای کار با Regex ارائه می دهد:
findall()
: بازگرداندن لیستی از تمام تطابق هاsearch()
: بازگرداندن اولین تطابق به صورت شیء Matchsplit()
: تقسیم رشته در محل تطابقsub()
: جایگزینی الگو با رشته دیگر
کاراکترهای ویژه (Metacharacters)
کاراکترهای خاصی در Regex وجود دارند که معناهای ویژه دارند. برای مثال ^
نشان دهنده شروع رشته و $
نشان دهنده پایان آن است.
پرچم ها (Flags)
پرچم ها باعث تغییر رفتار Regex می شوند. برای نمونه re.I
جستجو را بدون حساسیت به حروف بزرگ و کوچک انجام می دهد.
شیء Match
خروجی برخی توابع مانند search()
یک شیء Match است که شامل اطلاعاتی درباره نتیجه جستجو می باشد. برای مثال:
import re
txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.span()) # بازگرداندن موقعیت شروع و پایان
ادامه یادگیری
برای مطالعه بیشتر به بخش جی سون در پایتون یا فصل مدیریت بسته ها با pip مراجعه کنید.