首页 > 其他 > 详细

第二周_文本处理

时间:2018-12-25 00:48:23      阅读:194      评论:0      收藏:0      [点我收藏+]
简单文本处理工具:
cut -d分隔符 -f字段数(格式可以 # #,#... #-# #,#-#) -c 安字符切割 --output-dellimiter=STRING指定输出分隔符
wc 文本统计 默认统计行数 字数 字节数 -l只计行数 -w只计单词数 -c只计字节数 -m只计字符数 -L显示文件中最长行的长度
sort 排序 -n 按数字大小升序排序 -f忽略字符串大小写 -u删除重复行 -t STR指定分隔符 -k指定字段 tk组合使用
uniq -c显示每行重复出现的次数 -d仅显示重复过的行 -u仅显示不重复的行
grep -v取反 -i忽略大小写 -n显示匹配的行号 -c统计匹配的行数 -o仅显示匹配到的字符串 -q不输出任何信息($?可以显示命令是否执行成功 0为成功 非0为失败) -A#前#行 -B#后#行 -C#前后各#行 -e 或(grep -e PATTERN -e PATTERN file) -w匹配整个单词

正则表达式:
单词 连续的字母数字下划线
字符匹配:
. 任意单个字符
[STRING] 范围内任意单个字符
[^STRING] 范围内外任意单个字符

匹配次数:

  • 匹配前字符任意次 0-任意次
    .
    任意长度字符
    \? 匹配前字符0-1次 懒惰模式
    + 匹配\前字符至少一次
    {n} 匹配n次
    {n,m} 匹配n到m次

位置锚定:
^ 行首锚定 "^PATTERN"以字符串开头的行
$ 行尾锚定 "PATTERN"以字符串结尾的行
\<或\b 词首锚定 "\<PATTERN"以字符串开头的单词
\>或\b 词尾锚定 "PATTERN\>"以字符串结尾的单词
\<PATTERN\> 匹配整个单词

第二周_文本处理

原文:http://blog.51cto.com/14133915/2334716

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!