Linux HA Cluster
故障场景:
硬件故障:
设计缺陷
使用过久不可避免的损坏
人为故障
...
软件故障:
设计缺陷
bug
人为误操作
...
A=MTBF/(MTBF+MTTR)
A: Availability 可用性
MTBF:mean time between failure 平均无故障时间
MTTR: mean time to repair 平均修复时间
0<A<1: 百分比, 90%, 95%, 99%, 99.9%, 99.99%, 99.999%
提供冗余系统:
HA Cluster:为提升系统可用性,组合多台主机构建成为的集群;
split brain, partitioned cluster
vote system:投票系统
HA中的各节点无法探测彼此的心跳信息时,必须无法协调工作;此种状态即为partitioned cluster;
少数服从多数的原则:
quorum 法定票数
with quorum > total/2
without quorum <= total/2
仲裁设备:
quorum disk = qdisk
ping node
failover: 失效转移,故障转移
failback:失效转回,故障转回
资源类型:
message layer (集群事务信息层)
HA-aware:资源自身可直接调用HA集群底层的HA功能;
非HA-aware:必须借助于CRM(集群资源管理器)完成在HA集群上实现HA功能;
资源的约束关系:
location:位置约束,定义资源对节点的倾向性;用数值来表示,-oo, +oo;
colocation:排列约束,定义资源彼此间“在一起”倾向性;-oo, +oo
分组:亦能实现将多个资源绑定在一起;
order:顺序约束,定义资源在同一个节点上启动时的先后顺序;
资源类型:
primitive:主资源,只能运行于集群内的某单个节点;(也称作native);
group:组资源,容器,包含一个或多个资源,这些资源可通过“组”这个资源统一进行调度;
clone:克隆资源,可以在同一个集群内的多个节点运行多份克隆;
master/slave:主从资源,在同一个集群内部于两个节点运行两份资源,其中一个主,一个为从;
原文:http://xiexiaojun.blog.51cto.com/2305291/1704712