今天在问答区上看到一则有意思的问题,直接把截图搬过来,如下: (http://www.oschina.net/question/2268249_218189#tags_nav)
看起来明显输入的正则表达式不同,但是输出结果都一样(制表符被替换)。随后去查了下Pattern的Doc,发现下面一段话:
It is an error to use a backslash prior to any alphabetic character that does not denote an escaped construct; these are reserved for future extensions to the regular-expression language. A backslash may be used prior to a non-alphabetic character regardless of whether that character is part of an unescaped construct.
其大意是,一个反斜线可以放在任何一个non-alphabetic字符之前而无论这个字符是否是一个可以escaped的字符。(经过测试发现,如果反斜线后面跟着一个non-alphabetic字符的时候是不起任何作用的,跟不加反斜线的效果一样)
那么回头来看这个问题,由于\在java是escape character,所以出现有\的地方我们先做一个转换如下,左边是原始输入,右边是转义以后的字符串数组(数组的形式更方便区分):
第一个就是制表符,那么被替换掉可以理解。
第二个转义以后虽然不是制表符,但是从字面上看来也是制表符,所以正则替换的时候也被替换掉了。
第三个转义以后是一个\和一个制表符,根据前面看到的JavaDoc提到的内容。制表符是一个non-alphabetic字符,所以这个用法其实就是表示一个制表符(你也可以把 \t 换成 \你 看看输出结果)。
第四个转义以后是\,\和t三个字符,那么明显是不满足替换条件。
原文:http://my.oschina.net/foxty/blog/382282