各编程语言正则库的小差别

时间：2018-07-14 21:54:26 阅读：179 评论：0 收藏：0 [点我收藏+]

个人笔记，不保证正确。
待完善。。

日常工作中能接触到的正则，分为两大派别，其中类 Unix 系统中常用的正则，属于 POSIX “派”（较弱），而各编程语言标准库中的 Re，基本都是 PCRE “派”。（详见正则表达式“派别”简述）

可虽然说各编程语言基本都属于 PCRE 派，实现上却还是各有特点，一个正则想在各语言间移植，也往往需要一番修改。

今天学 Elixir，就在正则上遇到了问题，百度一番，想想索性就把这些差别总结一遍，防止下次又掉坑里。（包括 Python、Java、Elixir、文本编辑器的正则，有时间把 SQL 的正则也写写。。）

一、正则库方法上的差别

文本编辑器的正则是用来搜索的，会匹配整段文本中所有符合该模式的字符串，可以叫做 find all。
而不同的编程语言，又要看方法设计上的理念差别：
- Python 提供了 match（只要求从字符串开头的一部分文本能匹配）、fullmatch（要求匹配整个字符串）、search（从字符串中搜索该模式，找到第一个就停止）、findall（这个就对应 editor 的匹配模式，会返回字符串中所有匹配该模式的子字符串）

Python 有 raw 字符串，Elixir 也有对应的 sigils，在这种字符串里，正则不需要用一大堆反斜线（slash）来转义，而 Java 就不得不如此。
Elixir 的 sigils 引用符有 8 种，Python 的字符串引用符也有两种（单引号和双引号），可以通过灵活地换用它们来进一步避免使用转义符。而 Java 还是没有。。
匹配 flags 的指定方式：
- Elixir：写在引用符的最后，eg. ~r/your regex/s，s 表示 dot matches all。

待续

. 默认是匹配除非换行外的任何字符。如果需要包括换行，需要开启dot matchs all 选项，或者使用大小写匹配符结合（如 [\s\S] [\w\W] 之类）
所有重复限定符(* + ? {m,n})，默认都是贪婪匹配，如果需要懒惰匹配，要在后面多加个?，变成 *? +? {m,n}?

原文：https://www.cnblogs.com/kirito-c/p/9310908.html

踩

(0)

评论一句话评论（0）

分享档案

更多>