正则表达式(三)

re模块的高级用法

  • search

    • 需求:匹配出文章阅读的次数
    import re
    
    ret = re.search(r"\d+", "阅读次数为 9999")
    ret.group()
    >>>
    9999
    
  • findall

    • 需求:统计出python、c、c++相应文章阅读的次数
    import re
    
    ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
    print(ret)
    >>>
    ['9999', '7890', '12345']
    
    
  • sub 将匹配到的数据进行替换

    • 需求将匹配到的阅读次数+1
      1. 方法一
      import re
      
      ret = re.sub(r"\d+", '998', "python = 997")
      print(ret)
      >>>
      python = 998
      
      1. 方法二
      import re
      
      def add(temp):
          strNum = temp.group()
          num = int(strNum) + 1
          return str(num)
      
      ret = re.sub(r"\d+", add, "python = 997")
      print(ret)
      >>>
      python = 998
      
      ret = re.sub(r"\d+", add, "python = 99")
      print(ret)
      >>>
      python = 100
      
    • 从下面的字符串中取出文本
      <div>
      <p>岗位职责:</p>
      <p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
      <p><br></p>
      <p>必备要求:</p>
      <p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p>
      <p>&nbsp;<br></p>
      <p>技术要求:</p>
      <p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p>
      <p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
      <p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p>
      <p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p>
      <p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>
      <p>&nbsp;<br></p>
      <p>加分项:</p>
      <p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p>
      
      </div>
      
      1. 首先将此文本编辑到名为01.txt文档中
        <div>
        <p>岗位职责:</p>
        <p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
        <p><br></p>
        <p>必备要求:</p>
        <p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p>
        <p>&nbsp;<br></p>
        <p>技术要求:</p>
        <p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p>
        <p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
        <p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p>
        <p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p>
        <p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>
        <p>&nbsp;<br></p>
        <p>加分项:</p>
        <p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p>
        
        </div>
        
    1. 接下来在01.py文件中编辑
      import re
      
      f = open('01.txt','r')
      d = str(f.read())
      f.close()
      a = r'\n|<\w*>|</\w*>|&nbsp;'
      ret =re.split(a,d)
      
      for c in ret:
          if len(c) != 0:
              print(c)
      
    2. 运行得到
    岗位职责:
    完成推荐算法、数据统计、接口、后台等服务器端相关工作
    必备要求:
    良好的自我驱动力和职业素养,工作积极主动、结果导向
    技术要求:
    1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式
    2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架
    3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种
    4、掌握NoSQL、MQ,熟练使用对应技术解决方案
    5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js
    加分项:
    大数据,数理统计,机器学习,sklearn,高性能,大并发。
    
  • split根据匹配进行切割字符串,并返回一个列表

    • 需求:切割字符串“info:xiaoZhang 33 shandong”
      import re
    
      ret = re.split(r":| ","info:xiaoZhang 33 shandong")
      print(ret)
      >>>
      ['info', 'xiaozhang', '33', 'shandong']
    
    

贪婪与非贪婪

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;
非贪婪则相反,总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。

s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'4-235-22-423'

r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'234-235-22-423'

正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式:
非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。

re.match(r"aa(\d+)","aa2343ddd").group(1)
>>>
'2343'

re.match(r"aa(\d+?)","aa2343ddd").group(1)
>>>
'2'

re.match(r"aa(\d+)ddd","aa2343ddd").group(1)
>>>
'2343'

re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
>>>
'2343'
正则表达式.png

结束语

如果您对这篇文章有什么意见或者建议,请评论与我讨论.
如果您觉得还不错的话~可以点个喜欢鼓励我哦.
如果您想和我一起学习,请毫不吝啬的私信我吧~

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • 1.正则表达式概述 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regula...
    TENG书阅读 839评论 0 1
  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,070评论 0 99
  • re模块操作 在Python中需要通过正则表达式对字符串进行匹配的时候,要用到一个???,名字为re 1.re??榈?..
    初见_ac87阅读 354评论 0 1
  • 正则表达式 python无正则表达式,通过别的模块re(regex???应用过来import re # 引入re模...
    AndroidCat阅读 312评论 0 0
  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,211评论 4 16