● 分布式集群系统基本概念
● SolrCloud入门
● SolrCloud搭建
*****************************************************************************************************
URL:
localhost其实就是127.0.0.1,作用是找到对应的服务器,对大家以前来说就是自己本机
8080:通过8080端口可以找到某台服务器上的web服务器软件(web容器),对大家以前来说就是自己本机上的Tomcat
xxx:代表项目程序的部署名称,通过该名字可以找到Tomcat中部署的具体项目
问题:
1、高并发:海量用户同时进行访问。
2、大数据:如果存在海量数据进行传输与存储。
3、单点故障:服务器或者web服务器出现故障。
*****************************************************************************************************
集群是是指将多台服务器集中在一起,每台服务器都实现相同的业务,做相同的事情。但是每台服务器并不是缺一不可,存在的作用主要是缓解并发压力和单点故障转移问题。
比如:我们一起去修楼房,我搬砖,你也搬砖,我们缓解了有很多砖要搬的压力,提高了效率。同时,我们并不是缺一不可,如果我出故障,不干了,你还是可以继续搬砖,工程依旧可以继续进行,只是效率会低点。
注意:该图中最大的特点就是,每个Tomcat都完成相同的业务,但是分担着不同用户的访问,它们并不是缺一不可,如果一个Tomcat出现故障,网站依旧可以运行。
集群种类:
1、高可用集群(High Availability 简称HA cluster):此类集群实现的功能是保障用户的应用程序持久、不间断地提供服务。
2、负载均衡集群:负载均衡集群可以把一个高负荷的应用分散到多个节点共同完成,适用于业务繁忙、大负荷访问的应用系统。
3、科学计算集群(HPC集群):这类集群致力于提供单个计算机所不能提供的强大计算能力,包括数值计算和数据处理,并且倾向于追求综合性能。
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情。并且每台服务器都缺一不可,如果某台服务器故障,则网站部分功能缺失,或导致整体无法运行。存在的主要作用是大幅度的提高效率,缓解服务器的访问和存储压力。
比如:我们一起去修楼房,我搬砖,你砌墙,我们共同完成这一伟大的工程。但是,我们缺一不可,如果我出故障,不搬砖了,你也无法砌墙了。
注意:该图中最大特点是:每个Web服务器(Tomcat)程序都负责一个网站中不同的功能,缺一不可。如果某台服务器故障,则对应的网站功能缺失,也可以导致其依赖功能甚至全部功能不能够使用。
一般分布式中的每一个节点,都可以做集群。这样的系统架构,我们通常称为分布式集群架构。
*****************************************************************************************************
一般情况下,如果没有特别说明,代理技术默认说的是正向代理技术。关于正向代理的概念如下: 正向代理(forward)是一个位于客户端【用户A】和原始服务器(origin server)【服务器B】之间的服务器【代理服务器Z】,为了从原始服务器取得内容,用户A向代理服务器Z发送一个请求并指定目标(服务器B),然后代理服务器Z向服务器B转交请求并将获得的内容返回给客户端。客户端必须要进行一些特别的设置才能使用正向代理。
简单来说,正向代理就是代理服务器替代访问方【用户A】去访问目标服务器【服务器B】
为什么需要使用正向代理?
1、访问本无法访问的服务器B
2、加速访问服务器B
3、Cache作用
如果在用户A访问服务器B某数据J之前,已经有人通过代理服务器Z访问过服务器B上得数据J,那么代理服务器Z会把数据J保存一段时间,如果有人正好取该数据J,那么代理服务器Z不再访问服务器B,而把缓存的数据J直接发给用户A。
4、客户端访问授权
5、隐藏访问者的行踪
服务器B并不知道访问自己的实际是用户A,因为代理服务器Z代替用户A去直接与服务器B进行交互。如果代理服务器Z被用户A完全控制(或不完全控制),会惯以"肉鸡"术语称呼。
反向代理正好与正向代理相反,对于客户端而言代理服务器就像是原始服务器,并且客户端不需要进行任何特别的设置。客户端向反向代理的命名空间(name-space)中的内容发送普通请求,接着反向代理将判断向何处(原始服务器)转交请求,并将获得的内容返回给客户端。 使用反向代理服务器的作用如下:
1、保护和隐藏原始资源服务器
用户A始终认为它访问的是原始服务器B而不是代理服务器Z,但实用际上反向代理服务器接受用户A的应答,从原始资源服务器B中取得用户A的需求资源,然后发送给用户A。由于防火墙的作用,只允许代理服务器Z访问原始资源服务器B。在这个虚拟的环境下,防火墙和反向代理的共同作用保护了原始资源服务器B,但用户A并不知情。
2、负载均衡
当反向代理服务器不止一个的时候,我们甚至可以把它们做成集群,当更多的用户访问资源服务器B的时候,让不同的代理服务器Z(x)去应答不同的用户,然后发送不同用户需要的资源。
而且反向代理服务器像正向代理服务器一样拥有CACHE的作用,它可以缓存原始资源服务器B的资源,而不是每次都要向原始资源服务器B请求数据,特别是一些静态的数据,比如图片和文件。
简单来说,反向代理就是反向代理服务器替代原始服务器【服务器B】让【用户A】去访问
*****************************************************************************************************
分布式协调服务是集群分布式中大管家
Zookeeper 是google的chubby一个开源实现,是Hadoop的分布式协调服务。分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。并且可以用来保证数据在zk(Zookeeper)集群之间的数据的事物性一致。
特点:统一管理、合理分工、数据共享、实时同步、心跳检测、主从备份、故障恢复
SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud,当索引量很大,搜索请求并发很高,这时需要使用SolrCloud来满足这些需求。
SolrCloud需要Solr基于Zookeeper部署,Zookeeper是一个集群管理软件,由于SolrCloud需要由多台服务器组成,由zookeeper来进行协调管理。
用户发起索引请求分别从shard1和shard2上获取,解决高并发问题。
Collection在SolrCloud集群中是一个逻辑意义上的完整的索引结构。它常常被划分为一个或多个Shard(分片),它们使用相同的配置信息。
collection=shard1+shard2+....+shardX
Master是master-slave结构中的主结点,Slave是master-slave结构中的从结点。同一个Shard下master和slave存储的数据是一致的,这是为了达到高可用目的。
Collection的逻辑分片。每个Shard被化成一个或者多个replication,通过选举确定哪个是Leader。
zookeeper三台: 192.168.56.101, 192.168.56.102, 192.168.56.103
Solr三台: 192.168.56.101, 192.168.56.102, 192.168.56.103
1、将solr.war拷贝到tomcat的webapp目录:
cp /usr/local/mao/solr-4.10.2/example/webapps/solr.war /usr/local/mao/apache-tomcat-7.0.57/webapps/
4、修改tomcat的bin中的配置文件catalina.sh,加入
export JAVA_OPTS=-Dsolr.solr.home=/usr/local/mao/solr-4.10.2/example/solr
/usr/local/mao/solr-4.10.2/example/solr 是solr默认自带的索引库例子
tar -zxvf zookeeper-3.4.5.tar.gz
(2)、根据模版复制配置文件: cp zoo_sample.cfg zoo.cfg
dataDir=/usr/local/mao/zookeeper-3.4.5/data
dataLogDir=/usr/local/mao/zookeeper-3.4.5/log
server.1=192.168.56.101:2888:3888
server.2=192.168.56.102:2888:3888
server.3=192.168.56.103:2888:3888
3、在zookeeper根目录下创建data目录和log目录
启动zookeeper: ./zkServer.sh start
停止zookeeper: ./zkServer.sh stop
然后以./zkServer.sh start-foreground方式启动,会看到启动日志
建议最好hostname也改成centos1 centos2 centos3
对另外两台虚拟机中的zookeeper的myid文件进行更改:
启动zookeeper: ./zkServer.sh start
停止zookeeper: ./zkServer.sh stop
ZooKeeper命令行工具类似于Linux的shell环境,不过功能肯定不及shell啦,但是使用它我们可以简单的对ZooKeeper进行访问,数据创建,数据修改等操作. 使用 zkCli.sh -server 127.0.0.1:2181 连接到 ZooKeeper 服务,连接成功后,系统会输出 ZooKeeper 的相关环境以及配置信息。
1. 显示根目录下、文件: ls / 使用 ls 命令来查看当前 ZooKeeper 中所包含的内容
2. 显示根目录下、文件: ls2 / 查看当前节点数据并能看到更新次数等数据
3. 创建文件,并设置初始内容: create /zk "test" 创建一个新的 znode节点" zk "以及与它关联的字符串
4. 获取文件内容: get /zk 确认 znode 是否包含我们所创建的字符串
5. 修改文件内容: set /zk "zkbak" 对 zk 所关联的字符串进行设置
6. 删除文件: delete /zk 将刚才创建的 znode 删除
执行下边的命令将/usr/local/mao/solr-4.10.2/example/solr/collection1/conf/下的配置文件上传到zookeeper:
sh /home/solr/solr-4.10.2/example/scripts/cloud-scripts/zkcli.sh -zkhost
192.168.111.130:2181,192.168.111.131:2181,192.168.111.132:2181 -cmd upconfig -confdir
/home/solr/solr-4.10.2/example/solr/collection1/conf -confname solrconf
/usr/local/mao/solr-4.10.2/example/solr
<str name="host">${host:}</str>
<int name="hostPort">${jetty.port:8983}</int>
<str name="hostContext">${hostContext:solr}</str>
<int name="zkClientTimeout">${zkClientTimeout:30000}</int>
<bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>
修改每一台solr的tomcat 的 bin目录下catalina.sh文件中加入DzkHost指定zookeeper服务器地址:
参数说明:
name指明collection名称
numShards指明分片数
replicationFactor指明副本数
maxShardsPerNode 每个节点最大分片数(默认为1)
property.schema:指定使用的schema.xml,这个文件必须在zookeeper上。
property.config:指定使用的solrconfig.xml,这个文件必须在zookeeper上。
2、删除core命令;
http://192.168.56.101:8080/solr/admin/collections?action=DELETE&name=mycore2
3、查询所有的core
http://192.168.56.101:8080/solr/admin/collections?action=LIST
4、显示集群的状态
http://192.168.56.101:8080/solr/admin/collections?action=CLUSTERSTATUS
5、分裂shard
http://192.168.56.101:8080/solr/admin/collections?action=SPLITSHARD&collection=mycore2&shard=shard1
6、删除shard
http://192.168.56.101:8080/solr/admin/collections?action=DELETESHARD&collection=mycore2&shard=shard1
apache-solr-ref-guide-4.10.pdf
启动solrCloud需要先启动solrCloud依赖的所有zookeeper服务器,再启动每台solr服务器。
如果服务器跟服务器之间无法通讯,查看每台服务器的/etc/hosts 里面是否配置了其他服务器的IP地址和hostname
*****************************************************************************************************
1、创建索引:
测试:在一台solr上创建索引,从其它solr服务上可以查询到。
2、查询索引:
从任意一台Solr上查询索引,选择任意的一个分片,返回一个完整的结果,说明查询请求从不同的分片上获取数据,最终返回集群上所有匹配的结果。
3、单点故障:
三台机器中一台挂掉,对整个系统的使用也不会有影响。
4、数据恢复同步:
挂掉的机器挂掉的这段时间,正好又有新的数据添加到索引库中,挂掉的机器再次启动时候,会被进行数据同步。
*****************************************************************************************************
api和单机版的api的变化为,创建链接变了,其余的都没变。
/**
* 创建索引(修改)
*
* @throws IOException
* @throws SolrServerException
*/
@Test
public void createIndex() throws SolrServerException, IOException {
// 创建solr云服务器对象
CloudSolrServer cloudSolrServer = new CloudSolrServer(
"192.168.56.101:2181,192.168.56.102:2181,192.168.56.103:2181");
// 设置core
cloudSolrServer.setDefaultCollection("mycore");
// 设置连接超时
cloudSolrServer.setZkConnectTimeout(3000);
// 创建文档对象
SolrInputDocument solrInputDocument = new SolrInputDocument();
// 设置字段
solrInputDocument.setField("id", "4");
solrInputDocument.setField("title", "第四条大毛");
// 将文档对象添加服务器对象中
cloudSolrServer.add(solrInputDocument);
// 提交
cloudSolrServer.commit();
}
/**
* 删除索引
*
* @throws IOException
* @throws SolrServerException
*/
@Test
public void deleteIndex() throws SolrServerException, IOException {
// 创建solr云服务器对象
CloudSolrServer cloudSolrServer = new CloudSolrServer(
"192.168.56.101:2181,192.168.56.102:2181,192.168.56.103:2181");
// 设置core
cloudSolrServer.setDefaultCollection("mycore");
// 设置连接超时
cloudSolrServer.setZkConnectTimeout(3000);
// 根据id删除
cloudSolrServer.deleteById("4");
// 提交
cloudSolrServer.commit();
}
/**
* 查询索引
* @throws SolrServerException
*/
@Test
public void queryIndex() throws SolrServerException {
// 创建solr云服务器对象
CloudSolrServer cloudSolrServer = new CloudSolrServer(
"192.168.56.101:2181,192.168.56.102:2181,192.168.56.103:2181");
// 设置core
cloudSolrServer.setDefaultCollection("mycore");
// 设置连接超时
cloudSolrServer.setZkConnectTimeout(3000);
//查询
QueryResponse response = cloudSolrServer.query(new SolrQuery("*:*"));
//遍历
for (SolrDocument doc : response.getResults()) {
System.out.println(doc.get("id"));
System.out.println(doc.get("title"));
}
}
*****************************************************************************************************
大家刚开始进公司的话,还是以写业务代码
1、集群和分布式区别
2、正向代理和反向代理
3、分片 很远的期待 mycat hadoop(hbase)
4、solr云做到效果
5、zookeeper的作用
6、solrj访问solr云 (要会)
sms(短信通讯服务):使用程序代码(java)去给手机发短信
微信开发api平台
网站静态化
全网静态化(还没有实现)
*****************************************************************************************************
原文:http://www.cnblogs.com/beyondcj/p/6271155.html