复习正则表达式(一)
正则表达式是一个非常有用的文本提取工具,使用场景非常多,比如:验证、解析、替换字符串;从网络抓取的数据清洗以及格式转换。
最有用的是,学会了正则表达式的语法之后我们可以在几乎所有的高级编程语言中使用,即使有细微差别,但是也只是细微的语法修改。
让我们看一些用法:
1.基础
^和$
^:表示在文本头进行匹配
$:表示在文本末尾进行匹配
test:获取文本中包含 test 的文本。
2.数量
、+、?、{}
abc:匹配ab字符串后包含0个或多个c的字符串。
abc+:匹配ab字符串后包含1个更多个c的字符串。
abc?:匹配ab字符串后包含0个或1个c的字符串。
abc{2}:匹配ab字符串后包含2个c的字符串。
abc{2,}:匹配ab字符串后包含2个或更多个c的字符串。
abc{2,5}:匹配ab字符串后包含2-5个c的字符串。
a(bc)*:匹配a字符串后包含0个以上的bc的字符串。
a(bc){2,5}:匹配a字符串后包含2-5个bc的字符串。
3.或
a(b|c):匹配a字符串后包含b或者c支付的字符串。
a[bc]:匹配a字符串后包含b或者c支付的字符串。
4.替代字符
\d:匹配一个数字的字符
\w:匹配一个字符
\s:匹配一个空格
.: 匹配任何字符
使用.操作符可以匹配所有字符串,不过程序效率会比其他精确的替代符慢。
5.标记
标记是构造正则表达式中很重要的一个内容。
/abc/:我们通常使用/作为标记字符串模式,在结尾使用一个字母来作为一个标记。
g:全局搜索;在第一次匹配后不返回,继续向后搜索。
m:多行搜索;启用该标记,将使用^和$来标记文本段而不是整个字符串。
i:大小写不敏感;使用该标记将无视大小写区别。
今天大概整理了一些基础的常用的正则表达式的用法,下一篇我们将继续整理正则表达式的用法。