正则表示式在线测试工具网站,并以图例的方式呈现正则表达式:regexper.com
本文章内容通过学习Samaritan89老师的网课而总结的知识点
- RegExp对象
- 元字符
- 字符类
- 范围类
- 预定义类及边界
- 量词
- 正则贪婪模式与非贪婪模式
- 分组
- 前瞻
- 正则表达式的对象属性
- 正则表达式对象方法
- 跟正则表达式非常相关的字符串对象方法
1. RegExp对象
实例化RegExp对象有一下两种方法
- 使用字面量实例化
var reg = /\bis\b/ 'He is a boy. This is a dogis.'.replace(reg,'IS') //He IS a boy. This is a dogis. var reg = /\bis\b/g 'He is a boy. This is a dogis.'.replace(reg,'IS') //He IS a boy. This IS a dogis.
- 使用构造函数实例化
//使用构造函数实例化 var reg = new RegExp('\\bis\\b','g') 'He is a boy. This is a dogis.'.replace(reg,'IS') //He IS a boy. This IS a dogis. var reg = /\bis\b/gi 'He Is a boy. This Is a dogis.'.replace(reg,'0') //He 0 a boy. This 0 a dogis.
正则的修饰符有以下几种:
符号 | 解释 | 默认值 |
---|---|---|
g | global 全文搜索 | fasle,默认搜索到第一个匹配停止 |
i | ignore case 忽略大小写 | false,默认大小写敏感 |
m | multiple lines 多行搜索 | false,默认不匹配多行 |
2. 元字符
正则表达式由两种基本字符类型组成:
- 原义wenbenzifu
- 元字符
元字符是在正则表达式中有特殊含义的非子母字符
常用的有:* + ? $ ^ . \ () {} [] ,这些在下文篇幅中一一讲述,以及以下常用字符:
字符 | 含义 |
---|---|
\t | 水平制表符 |
\v | 垂直制表符 |
\n | 换行符 |
\r | 回车符 |
\0 | 空字符 |
\f | 换页符 |
3. 字符类
类:指符合某些特性的对象,是个泛指
用 元字符[ ] 匹配某类字符
例子:
'a1b2c3d4'.replace(/[abc]/g,'X')
//X1X2X3d4
在类[]中,使用元字符^创建反向类/负向类,如下:
//表达式[^abc]表示不是字符a或b或c的内容
'a1b2c3d4'.replace(/[^abc]/g,'X')
//aXbXcXXX
4. 范围类
正则表达式提供的范围类,如
[a-z]来连接两个字符,表示从a到z的任意字符,此表达的是闭区间,包括a和z
例子:
'a1b2c3x4z9'.replace(/[a-z]/g,'P')
// P1P2P3P4P9
在[ ] 组成的类内部是可以连写的[a-zA-Z]
'Aa1Bb2c3x4z9ASDFQW'.replace(/[a-zA-Z]/g,'P')
//"PP1PP2P3P4P9PPPPPP"
匹配数字和横线,即再单加一个-
'2019-03-09'.replace(/[0-9-]/g,'P')
//PPPPPPPPPP
5. 预定义类及边界
5.1 预定义类
预定义类是为了匹配常见的的字符类
字符 | 等价类 | 含义 |
---|---|---|
. | [^\r\n] | 除了回车符、换行符之外的所有字符 |
\d | [0-9] | 数字字符 |
\D | [^0-9] | 非数字字符 |
\s | [\t\n\x0B\f\r] | 空白符 |
\S | [^\t\n\x0B\f\r] | 非空白字符 |
\w | [a-zA-Z_0-9] | 单词字符(子母、数字、下划线) |
\W | [^-zA-Z_0-9] | 非单词字符 |
例子:匹配 ab+数字+任意字符 的字符串
/ab\d./
等价于 /ab[0-9][^\r\n]/
5.2边界匹配字符####
字符 | 含义 |
---|---|
^ | 以xxx开始 |
$ | 以xxx结束 |
\b | 单词边界 |
\B | 非单词边界 |
单词边界和非单词边界例子:
'This is a boy'.replace(/is/g,'0')
//Th0 0 a boy
'This is a boy'.replace(/\bis\b/g,'0')
//This 0 a boy
'This is a boy'.replace(/\Bis\b/g,'0')
//Th0 is a boy
字符串的首尾匹配例子:
'@123@abc@'.replace(/@./g,'Q')
//Q23Qbc@
'@123@abc@'.replace(/^@./g,'Q')
// Q3@abc@
'@123@abc@'.replace(/.@/g,'Q')
// @12QabQ
'@123@abc@'.replace(/.@$/g,'Q')
//@123@abQ
多行字符串的每行首尾匹配例子
'@123\n@456\n@789'.replace(/^@\d/g,'X')
//X23\n@456\n@789
'@123\n@456\n@789'.replace(/^@\d/gm,'X')
//X23\nX56\nX89
6. 量词
例子:匹配一个连续出现5次数字的字符串
/\d\d\d\d\d/
等价于/\d{20}/
量词字符如下
字符 | 含义 |
---|---|
? | 出现零次或一次(最多一次) |
+ | 出现一次或多次(最少一次) |
* | 出现零次或多次(任意次) |
{n} | 出现n次 |
{n,m} | 出现n到m次 |
{n,} | 最少出现n次 |
例子:
'12343432'.replace(/\d?/,'z')
// "z2343432"
'12343432'.replace(/\d+/,'z')
// "z" 为什么匹配所有的数组,而不是匹配一个?看下一篇幅讲述
'12343432'.replace(/\d*/,'z')
// "z"
'12343432'.replace(/\d{4}/,'z')
// "43432"
'12343432'.replace(/\d{4,7}/,'z')
// "z2"
'12343432'.replace(/\d{4,}/,'z')
// "z"
7. 正则贪婪模式与非贪婪模式
一般情况下,正则是默认尽可能的匹配,即贪婪模式,如下例子
'12345678'.replace(/\d{3,6}/,'z')
//z78
开启非贪婪模式的方法:在量词后面添加问号
'12345678'.replace(/\d{3,6}?/,'z')
//z45678
'12345678'.replace(/\d{3,6}?/g,'z')
//zz78
8. 分组
8.1分组 ()
使用场景:匹配字符串连续出现三次的场景
例如:/Byron{3}/
只能匹配连续3次的n,单词不重复
所以可以使用 元字符() 达到分组的功能,使量词作用域分组
var reg = /(Byron){3}/
'a1b2c3d4'.replace(/[a-z]\d{3}/g,'X')
// "a1b2c3d4"
'a1b2c3d4'.replace(/([a-z]\d){3}/g,'X')
// "Xd4"
8.2 或 |
使用 元字符| 达到或的效果,而不需要分组
'ByronCasper'.replace(/Byron|Casper/g,'X')
// "XX"
也可以在分组中使用
'ByronsperByrCasper'.replace(/Byr(on|Ca)sper/g,'X')
// "XX"
8.3 反向引用
反向引用可以捕获分组内容,用$n
(n表示第n个分组)表示,同时$&
表示整个正则表达式匹配的内容.例子如下:
'2019-03-10'.replace(/(\d{4})-(\d{2})-(\d{2})/g,'$2/$3/$1')
// "03/10/2019"
'2019-03-10'.replace(/(\d{4})-(\d{2})-(\d{2})/g,'时间:$&')
//"时间:2019-03-10"
8.4 忽略分组
如不希望捕获某些分组,需在分组的前面加上?:
,例子:
'Byron1ok'.replace(/(?:Byron).(ok)/,'$1')
// "ok"
9. 前瞻
而前瞻就是在正则表达式匹配到规则的时候,向前检查是否符合断言。
对前的解释:从文本头部向尾部开始解析,文本尾部方向,称为‘前’。
后顾/后瞻方向与之方向相反,但是javascript不支持后顾
前瞻中的正则表达式称为断言,又分为肯定/正向匹配和否定/负向匹配
名称 | 正则 | 含义 |
---|---|---|
正向前瞻 | exp(?=assert) | 匹配到exp后,其后面字符是否能匹配assert的正则 |
负向前瞻 | exp(?!assert) | 匹配到exp后,其后面字符是否不能匹配assert的正则 |
例子:
'a2*34vv'.replace(/\w(?=\d)/g, 'X')
//X2*X4vv
'a2*34vv'.replace(/\w(?!\d)/g, 'X')
//aX*3XXX
10. 正则表达式的对象属性
- global:是否全文搜索,默认为false
- ignore case:是否大小写敏感,默认是fasle
- multiline:多行搜索,默认值是false
- lastIndex:是当前表达式匹配内容的最后一个字符的下一个开始搜索的位置
- source:正则表达式的文本字符串
var reg1 = /\w/;
var reg2 = /\w/gim;
reg1.global //false
reg2.multiline //true
11. 正则表达式对象方法
11.1 RegExp.prototype.test(str)
用于测试字符串参数重是否存在匹配正则表达式模式的字符串,如果存在则返回true,否则返回false
但此方法,会有以下bug
var reg1 = /\w/
var reg2 = /\w/g
reg1.test('a')//true
reg2.test('ab')//true
reg2.test('ab')//true
reg2.test('ab')//false
reg2.test('ab')//true
reg2.test('ab')//true
reg2.test('ab')//false
会有以上原因主要是因为lastIndex此属性
正则对象的test()执行后,其自身的lastIndex属性值+1,循环着
解决方法:
- 每次都实例化一个 (/\w/g).test('ab'),然而每次实例化一个对象需要内存开销的
- 使用exec方法
11.2 RegExp.prototype.exec(str)
用途:使用正则表达式??槎宰址葱兴阉鳎⒔氯諶egExp对象的属性以反映匹配结果
如果没有匹配的文本则返回null,否则返回一个结果数组,数组有两个额外的属性
- index:生命匹配文本的第一个字符的位置
- input:存放被检索的字符串string
非全局调用(即没有修饰符g)
- 返回数组
- 第一个元素是与正则表示相匹配的文本
- 第二个元素是与RegExpObject的第一个子表达式相匹配的文本(如果有的话)
- 第三个元素是与RegExp对象的第二个子表达式相匹配的文本(如果有的话),以此类推
- 子表达式就是分组的内容
var ts = '1a2b3c4d5e'
var reg3 = /\d(\w)\d/
var ret = reg3.exec(ts)
console.log(reg3.lastIndex+' '+ret.index+' '+ret.toString())
//0 0 1a2,a
console.log(reg3.lastIndex+' '+ret.index+' '+ret.toString())
//0 0 1a2,a
对整个字符串进行搜索,能获得到具体的值:
var ts = '1a2b3c4d5e'
var reg4 = /\d(\w)\d/g, ret
while(ret = reg4.exec(ts)){
console.log(reg4.lastIndex+' '+ret.index+' '+ret.toString())
}
//2 3 0 1a2,a
//2 7 4 3c4,c
12. 跟正则表达式非常相关的字符串对象方法
12.1 String.prototype.search(reg)
用途:检索与正则表达式相匹配的子字符串
- 方法返回第一个匹配结果的index,搜索不到返回-1
- search()方法不执行全局匹配,忽略标志g,并且总是从字符串的开始进行
- search参数不是正则的都会尝试转换成正则
'a1b2c3d1'.search('1')
//1
'a1b2c3d1'.search(/1/)
//1
'a1b2c3d1'.search(1)
//1
12.2 String.prototype.match(reg)
用途:match()检索字符串,返回匹配的结果数组,没有则null
有两个对象属性
- index:声明匹配文本的起始字符在字符串的位置
- input:声明对stringObject的引用
- 若是非全局调用的话(无g),是和正则表达式方法的exec用途相反
- 若是全局调用,match只是返回数组,不会有index什么的
例子:
String.prototype.split(reg)
'a,b,c,d'.split(',')
'a1b2c3d4e'.split(/\d/g)
// ["a", "b", "c", "d", "e"]
12.3 String.prototype.replace
三个用法:
- String.prototype.replace(str, replaceStr)
- String.prototype.replace(reg, replaceStr)
- String.prototype.replace(reg, function(){})
上面的回调函数在每次匹配替换的时候调用,有四个参数
- 匹配字符串
- 正则表达式分组内容,没有分组则没有该参数
- 匹配项在字符串中的index
- 原字符串
'a1b1c1'.replace('1',2)
//a2b1c1
'a1b1c1'.replace(/1/g,2)
//a2b2c2
// 需要实现的目标:'a1b2c3d4' => 'a2b3c4d5'
'a1b2c3d4'.replace(/\d/g,function(match, index, origin){
console.log(index)
return parseInt(match)+1
})
// 1
// 3
// 5
// 7
// "a2b3c4d5"
'a1b2c3d4'.replace(/(\d)(\w)(\d)/g,function(match, group1, group2,group3, index, origin){
console.log(match)
return group1+group3
})
//1b2
//3d4
//"a12c34"