Lazy loaded image
学习笔记
🗒️【文本数据分析】第三章 正则表达式
字数 582阅读时长 2 分钟
2023-12-9
2023-12-9
type
status
date
slug
summary
tags
category
icon
password

📝主旨内容

一、正则表达式函数

match函数:用于检测字符串开头位置是否匹配。 search函数:用于在整个字符串内查找对应的模式进行匹配。 findall函数:返回的是正则表达式在字符串中所有匹配结果的列表。 sub函数:能够找到所有模式匹配的字符串并用指定的字符串替换。

二、正则表达式的元字符

英文句号“.”:匹配任意一个字符,表示匹配除去换行符“\n”之外的任意一个字符。 中括号“[ ]”:匹配多个字符,表示包含在中括号内部的字符都会被匹配。 管道符“|”:用于对两个正则表达式进行或操作。 乘方符号“^”:匹配字符串起始位置的内容。 货币符号“$”:匹配字符串的结束位置的内容。 量化符号“?”“*”“+”“{n}”“{n,}”“{m,n}”:匹配需要的字符数。
notion image
字符串中可以包含任何字符,如果待匹配的字符串中出现“$”“.”“[ ]”等特殊字符,那么这将会与正则表达式的特殊字符发生冲突。 遇到这种情况,Python使用“\”将字符串内的特殊符号进行转义,即表示告诉Python,这个字符当作普通字符处理。 “\”是用于进行转义的,如果字符串包含“\”,那么需要使用“\”将“\”进行转义。 在正则表达式中,通常解释一个反斜杠“\”需要用两个反斜杠“\\”表示。而python中自带的原生字符“r”很好的解决了这个问题。对于文本中的“\”,只需要“r'\'”表示即可。对于需要转义的字符如“\\d”,可以从写成“r'\d'”。
致谢:
💡
欢迎您在底部评论区留言,一起交流~
 
 
上一篇
前端-vue2-day04
下一篇
【文本数据分析】第二章 语料库

评论
Loading...