re模块的高级用法
-
search
- 需求:匹配出文章阅读的次数
import re ret = re.search(r"\d+", "阅读次数为 9999") ret.group() >>> 9999
-
findall
- 需求:统计出python、c、c++相应文章阅读的次数
import re ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345") print(ret) >>> ['9999', '7890', '12345']
-
sub 将匹配到的数据进行替换
- 需求将匹配到的阅读次数+1
- 方法一
import re ret = re.sub(r"\d+", '998', "python = 997") print(ret) >>> python = 998
- 方法二
import re def add(temp): strNum = temp.group() num = int(strNum) + 1 return str(num) ret = re.sub(r"\d+", add, "python = 997") print(ret) >>> python = 998 ret = re.sub(r"\d+", add, "python = 99") print(ret) >>> python = 100
- 从下面的字符串中取出文本
<div> <p>岗位职责:</p> <p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p> <p><br></p> <p>必备要求:</p> <p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p> <p> <br></p> <p>技术要求:</p> <p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p> <p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p> <p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p> <p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p> <p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p> <p> <br></p> <p>加分项:</p> <p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p> </div>
- 首先将此文本编辑到名为01.txt文档中
<div> <p>岗位职责:</p> <p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p> <p><br></p> <p>必备要求:</p> <p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p> <p> <br></p> <p>技术要求:</p> <p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p> <p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p> <p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p> <p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p> <p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p> <p> <br></p> <p>加分项:</p> <p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p> </div>
- 首先将此文本编辑到名为01.txt文档中
- 接下来在01.py文件中编辑
import re f = open('01.txt','r') d = str(f.read()) f.close() a = r'\n|<\w*>|</\w*>| ' ret =re.split(a,d) for c in ret: if len(c) != 0: print(c)
- 运行得到
岗位职责: 完成推荐算法、数据统计、接口、后台等服务器端相关工作 必备要求: 良好的自我驱动力和职业素养,工作积极主动、结果导向 技术要求: 1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式 2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架 3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种 4、掌握NoSQL、MQ,熟练使用对应技术解决方案 5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js 加分项: 大数据,数理统计,机器学习,sklearn,高性能,大并发。
- 需求将匹配到的阅读次数+1
-
split根据匹配进行切割字符串,并返回一个列表
- 需求:切割字符串“info:xiaoZhang 33 shandong”
import re ret = re.split(r":| ","info:xiaoZhang 33 shandong") print(ret) >>> ['info', 'xiaozhang', '33', 'shandong']
贪婪与非贪婪
Python里数量词默认是贪婪的
(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。
s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'4-235-22-423'
r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'234-235-22-423'
正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。
解决方式:
非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。
re.match(r"aa(\d+)","aa2343ddd").group(1)
>>>
'2343'
re.match(r"aa(\d+?)","aa2343ddd").group(1)
>>>
'2'
re.match(r"aa(\d+)ddd","aa2343ddd").group(1)
>>>
'2343'
re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
>>>
'2343'
结束语
如果您对这篇文章有什么意见或者建议,请评论与我讨论.
如果您觉得还不错的话~可以点个喜欢鼓励我哦.
如果您想和我一起学习,请毫不吝啬的私信我吧~