正则表达式
在了解正则表达式之前我们先来对几个词做一下解释,以方便之后的学习
字母表:是一个有限的符号集合。典型的例子包括字母、数位、标点符号。如ASCII码表,亦或是{0,1}这一组二进制字母表,亦或是{a,1,w,4}这一组我们自定义的字母表。这里使用的字母表是一种广泛上的定义。
串:是字母表中符号的一个有穷序列,称为串,通常用s表示,长度记为|s|??沾褪浅ざ任?的串,用ε表示。
语言:是某个给定字母表上一个任意的可数的串的集合。同样是一个广泛上的定义。值得注意的是空集?和仅包含空串{ε}的集合都为语言。语言直接可以进行运算。这里注意一下kleene闭包和正闭包,正闭包不包含ε,kleene闭包包含ε。
了解完上述的一些概念后,就可以来看一下正则表达式了。
正则表达式是一种规则表达式,用来对语言进行匹配,假如一个正则表达式为r或是s,那这个正则式可以表示语言L( r )或L(s)
一些规则:
- ( r ) | ( s ) 是一个正则表达式,表示语言 L( r ) ∪ L( s )
- ( r )( s ) 是一个正则表达式,表示语言 L( r )L( s )
- ( r )* 是一个正则表达式,表示语言 (L( r ) )*
- ( r ) 是一个正则表达式,表示语言 L( r )
基本运算
在这之后,又对基本的正则表达式进行了扩展,分别为
- 一个或多个实例:( r )+ 是一个正则表达式,表示语言 (L( r ))+ 。r* = r+ | ε
- 零个或一个实例:r? 等价于 r | ε
- 字符类:a | b | c | d | ... | z 可以表示为 [abc...z]