最近在开发gecco的开源爬虫时混淆了正则表达的部分匹配和完全匹配的概念,记录一下。
java的正则表达式有个很容易混淆的概念,部分匹配和完全匹配:
在Matcher类中有matches、lookingAt和find都是匹配目标的方法,但容易混淆,整理它们的区别如下:
matches:整个匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False。但如果前部分匹配成功,将移动下次 ...
分类:
其他 时间:
2016-02-05 02:18:34
收藏:
0 评论:
0 赞:
0 阅读:
150
Gecco爬虫已经开发有一个多月了,爬虫的大部分功能已经实现,是需要检验一下爬虫的时候了。
? ? ? ? 之所以开发Gecco这样的一个爬虫,也是我之前开发了不少类似的应用有关,这些应用都需要爬取其他网站的信息,并且结构化后加以利用。
? ? ? ? 比如之前开发过一个比价网站,将京东、苏宁、新蛋、易迅等电商的商品信息抓下来进行站内和站外的比价,如今这样的应用已经十分普及, ...
分类:
其他 时间:
2016-02-05 02:18:07
收藏:
0 评论:
0 赞:
0 阅读:
238
获取【下载地址】? ?QQ: 313596790? ?【免费支持更新】支持三大数据库 mysql??oracle??sqlsever? ?更专业、更强悍、适合不同用户群体【新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统】A 代码生成器(开发利器);? ?? ?增删改查的处理类,service层,mybatis的xml,SQL( mysql? ?和oracle)脚本,? ?jsp页面 ...
分类:
编程语言 时间:
2016-02-05 02:17:42
收藏:
0 评论:
0 赞:
0 阅读:
295
获取【下载地址】? ?QQ: 313596790? ?【免费支持更新】支持三大数据库 mysql??oracle??sqlsever? ?更专业、更强悍、适合不同用户群体【新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统】A 代码生成器(开发利器);? ?? ?增删改查的处理类,service层,mybatis的xml,SQL( mysql? ?和oracle)脚本,? ?jsp页面 ...
分类:
编程语言 时间:
2016-02-05 02:17:17
收藏:
0 评论:
0 赞:
0 阅读:
810
官网https://www.elastic.co软件版本:Logstash2.2.0AllPluginsElasticsearch2.2.0Kibana4.4.0说明:此环境变Centos6.564位,单机做测试,具体配置从简。1.Logstash安装配置解压到/usr/local/logstash-2.2.0/Logstash配置文件:vim/usr/local/logstash-2.2.0/etc/agent.confinpu..
分类:
其他 时间:
2016-02-05 02:09:46
收藏:
0 评论:
0 赞:
0 阅读:
214
系统环境:rhel6.4+oracle11.2.0.3.7+k3cloud6主要参考下文,并根据实际情况做更改:http://www.osyunwei.com/archives/5960.html1、root用户登录服务器mkdir-p/u01/backup#新建Oracle数据库备份目录chown-Roracle:oinstall/u01/backup-R#设置目录权限为oinstall用户组的oracle..
分类:
数据库技术 时间:
2016-02-05 02:09:34
收藏:
0 评论:
0 赞:
0 阅读:
389
在我联系python+Django1.8.4的时候,发现1.9已经出来了,命令有些不同,但是有些程序居然需要依赖django1.5的库,所以特地看了一下如何在一台机器上搭建多个版本的phtyon1.新建一个djangoprojectdjango-admin.pystartprojectproject-name一个project为一个项目,project-name项..
分类:
编程语言 时间:
2016-02-05 02:09:21
收藏:
0 评论:
0 赞:
0 阅读:
221
MapReduce拆分JobTracker为资源管理及任务生命周期管理两个独立的组件MapReduce在Hadoop2中称为MR2或YARN,将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的服务:用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster,..
分类:
移动平台 时间:
2016-02-05 02:09:10
收藏:
0 评论:
0 赞:
0 阅读:
323
今天看《高性能mysql》一书时,看到optimizetable的命令可以重新组织表,就本地测试了下,执行结果如下:mysql>optimizetablepsendohash;+---------------------+----------+----------+-------------------------------------------------------------------+|Table|Op|Msg..
分类:
其他 时间:
2016-02-05 02:08:57
收藏:
0 评论:
0 赞:
0 阅读:
107
这两日,淘宝电影联合华谊兄弟研究院发布的《2015中国影市报告》吸引了不少电影爱好者的关注,这份图析数据报告直观的告诉了我们很多市场情况,但对于行业人士而言,读懂其中潜在的数据信息或许更有意义。电影即时消费性更强,预售适合用来做补充在淘宝电影发布的数据报告中,..
分类:
其他 时间:
2016-02-05 02:08:34
收藏:
0 评论:
0 赞:
0 阅读:
149
packageday33;
/**
*递归调用,删除文件
*/
importjava.io.File;
publicclassFileDemo07{
publicstaticvoidmain(String[]args){
Filefile=newFile("a");
deleteFile(file);
}
publicstaticvoiddeleteFile(Filefile){
if(file.isDirectory()){
File[]subs=file.lis..
分类:
编程语言 时间:
2016-02-05 02:08:20
收藏:
0 评论:
0 赞:
0 阅读:
136
<!DOCTYPEhtml>
<html>
<headlang="en">
<metacharset="UTF-8">
<title></title>
</head>
<body>
<!--压缩时要用到的canvas-->
<canvasid="canvas"style="display:none;"></canvas>
<!--原始图片-->..
分类:
Web开发 时间:
2016-02-05 02:08:07
收藏:
0 评论:
0 赞:
0 阅读:
232
在command命令窗口下使用pythonmanage.pystartappapp01,django会生成一个project然后多了一个app的目录里面存放着该app的视图Django的原理是这样的Django是一个框架,定义了页面的框架,将页面拆分成不同组件,不同组件引入不同后台程序。用户访问http://127.0.0.1:8000/URL.p..
分类:
其他 时间:
2016-02-05 02:07:55
收藏:
0 评论:
0 赞:
0 阅读:
319
在5.6版本服务器做备份/usr/local/mysql/bin/mysqldump-S/tmp/mysql3306.sock-A-p--set-gtid-purged=OFF>backup_20160204.sql在5.7版本服务器操作mkdir-p/neworiental/data/mysql/mysql3307/{data,logs,relaylog,sock,tmp}chown-Rmysql:mysql/neworiental/data初始化数据库/..
分类:
数据库技术 时间:
2016-02-05 02:07:43
收藏:
0 评论:
0 赞:
0 阅读:
340
一、环境准备:Apache服务器:redhat6.5192.168.75.128/192.168.85.128TomcatA服务器:redhat6.5192.168.75.130TomcatB服务器:redhat6.5192.168.75.131Apache服务器安装httpd,安装方法参考:Linux编译安装Apache(httpd-2.4.18)TomcatA、TomcatB安装Java和tomcat,安装方法参..
分类:
Web开发 时间:
2016-02-05 02:07:18
收藏:
0 评论:
0 赞:
0 阅读:
224
1、下载jenkins.war包2、在war包所在的目录按住shift键右击打开命令行窗口执行下面两条命令来启动jenkins:jar-jarjenkins.warjava-Xms1024m-Xmx2048m-XX:PermSize=512M-jarjenkins.war--httpPort=18080--ajp13Port=18009出现如图的提示代表已经启动成功3、关闭jenkins命令:Ct..
分类:
其他 时间:
2016-02-05 02:07:06
收藏:
0 评论:
0 赞:
0 阅读:
112
近期,亚马逊一条无人机配送的视频广告引起了不小的关注,京东也紧随其后借热点宣传自己即将在中国乡村推出无人机配送,不过不少业内媒体对此提出了质疑,无论从技术、政策、市场等各方面,短期内无人机配送都无法实现,京东炒作无人机配送更多的是出于宣传目的,为前不久刘强..
分类:
其他 时间:
2016-02-05 02:06:53
收藏:
0 评论:
0 赞:
0 阅读:
185
第一个程序hello.py以下为内容#!/usr/bin/envpython
#-*-coding:utf-8-*-
__author__=‘teng‘
print‘hello‘#!/usr/bin/envpython表示使用特定的解释器执行如果是python3将python改为python3#-*-coding:utf-8-*-表示将代码编码设置为utf-8(针对Unicode的可变长度字符编码,用1到6..
分类:
编程语言 时间:
2016-02-05 02:06:41
收藏:
0 评论:
0 赞:
0 阅读:
209
已知文件1.txt和2.txtcat1.txt1a
2a
3a
4b
5c
6c
7dcat2.txta10
b20
c30
d40要求:通过awk将以上两个文件合并成如下效果1a10
2a10
3a10
4b20
5c30
6c30
7d40解答:awk‘NR==FNR{m[$1]=$2}NR>FNR{print$0,m[$2]}‘2.txt1.txt知识点:NR为awk命令读取记录的数目FNR为awk命令读取..
分类:
其他 时间:
2016-02-05 02:06:16
收藏:
0 评论:
0 赞:
0 阅读:
146
C语言的练习—通讯录,该通讯录主要实现最大存储1000个人信息,对通讯录中的个人信息能够进行增、删、查、改等基本功能,通过用c语言编写,能够极大程度上锻炼编程能力。程序主要使用数组的知识,创建1000大小的静态数组,在极端情况下,通讯录中元素较少,对空间的使用率较低..
分类:
编程语言 时间:
2016-02-05 02:05:39
收藏:
0 评论:
0 赞:
0 阅读:
209