首页 > 其他 > 详细

正则表达式——7.4 单词边界

时间:2018-12-13 18:21:37      阅读:149      评论:0      收藏:0      [点我收藏+]

??单词边界的准确解释是:一端必须出现\w能匹配的字符,另一端不出现\w能匹配的字符。在JavaScript、PHP、Python 2、Ruby中,\w只能匹配[0-9a-z-A-Z_]。所以在这些语言中,\b\w+\b能用来匹配几乎所有的英文单词。

技术分享图片
技术分享图片
技术分享图片

字符串 正则表达式 能否匹配 说明
tom,jerry(半角标点) \btom\b \w不能匹配半角标点
tom,jerry(全角标点) \btom\b \w可以匹配全角标点
tom和jerry \b和\b \w可以匹配中文字符
汤姆,jerry(半角标点) \btom\b \w不能匹配半角标点
汤姆,jerry(全角标点) \btom\b \w可以匹配全角标点

??总的来说,如果使用 Unicode 匹配规则,尽量不要在处理中英文混排文本时使用\b。如果使用 ASCII 匹配规则,则可以再处理英文文本时放心地使用\b

??也有更复杂的情况,比如 Java 就是如此。在 Java 中,虽然\w只能匹配[0-9a-zA-Z_]\b对“单词字符”的判断确实按照 Unicode 匹配规则的。后面有详情

正则表达式——7.4 单词边界

原文:https://www.cnblogs.com/gaara0305/p/10115426.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!