Oracle RAC 实例管理（Cluster Group Service）

yanfangsheng123 发表于 2018-9-21 10:41:57

　　实例管理：负责维护数据库集群的实例列表，确保只有集群中的实例能够访问数据库，并且在实例加入集群或者离开集群时更新实例列表。
　　CGS是Oracle RAC 实例管理的实现方法，负责实现如下功能
　　1）实例之间的心跳机制
　　2）当实例离开或者加入集群时完成数据库集群的重新配置
　　3）解决数据库层面出现的脑裂
　　1，网络心跳
　　数据库层面的网络心跳是通过LMON进程实现的，每个实例的LMON进程会定期通过数据库的私网与所有远程实例进行通信，以确认其他实例的状态，如果，某一个实例一段时间之内不能够响应其他节点发送的网络心跳信息，那么数据库集群就需要进行重新配置，在被驱逐实例的alert.log中会产生ORA-29740错误。
　　2，磁盘心跳
　　数据库层面的磁盘心跳和GI层面的磁盘心跳实现的功能基本相同，但是，由于数据库层面并没有VF存在，所以，实现方式会有所不同，对应RAC数据库，LMON进程会将网络心跳中包含的远程节点的状态信息发送给CKPT进程，CKPT进程默认每3s向数据库的控制文件写入本地实例能够访问的其他实例信息，从而完成数据库实例的磁盘心跳。如果数据库实例的磁盘心跳出现了问题，会在alert.log中产生ORA-494错误。
　　3，本地心跳
　　数据库层面的本地心跳是通过LMHB进程实现的，LMHB进程会定期监控LMON，LMS，LMD，LCK0等于CACHE FUSION相关的重要后台进程，如果LMHB进程发送某一个重要的后台进程在一段时间之内没有更新自己的状态信息，就会进行分析，如果有必要会采用终止实例的方式来解决问题，如果LMHB终止了数据库实例，会在alert.log中产生ORA-29770或ORA-29771错误。
　　重新配置的阶段
　　阶段1：重新配置主节点向所有其他节点发送重新配置消息，之后冻结每个实例的名称服务和锁相关信息。
　　阶段2：决定新的实例状态位图（在这个阶段，重新配置主节点会持有RR锁决定新的实例状态位图），如果重新配置是由于实例离开导致的，进行实例恢复，之后，更新数据库集群的incarnation。
　　阶段3：如果重新配置的原因是实例离开数据库集群，则删除离开数据库集群的实例的名称服务中的数据。
　　阶段4：重新发布数据库集群的名称服务信息，并恢复之前被冻结的锁相关的操作。
　　阶段5：之前冻结的资源被解冻，并通知GCS和GES开始进行内存融合相关的重新配置。
　　重新配置的类型
　　类型1：由于数据库启动或关闭导致的重新配置
　　类型2：由于某一个实例丢失网络心跳导致的重新配置
　　类型3：由于某一个实例丢失磁盘心跳导致的重新配置
　　类型4：由于某一个内存融合相关的重要后台进程丢失本地心跳导致的重新配置
　　类型2-4的重新配置的结果是有问题的实例被重新启动
　　数据库层面的脑裂
　　1）两个实例之间的私有网络出现问题，在一段时间之后（默认300s）,两个实例都发现无法和对方进行通信。
　　2）每个实例都尝试获得RR锁，获得了RR锁的实例访问控制文件中的实例状态，并决定新的集群实例列表，获得了RR锁的实例会存活，另外一个实例被驱逐。
　　数据库层面的脑裂和GI层面的含义是一致的，但是处理方式存在差别：GI层面的脑裂是基于节点编号，而数据库层面的脑裂需要竞争RR锁。
　　实例恢复
　　当实例的重新配置进行到实例恢复阶段时，SMON进程负责完成对被关闭实例的重做日志文件进行实例恢复，整个过程分为3个阶段。
　　阶段1：执行恢复实例的SMON进程持有IR锁，并通知其他实例开始进行实例恢复。之后进行第一次redo.log分析，并构建恢复集。
　　阶段2：获取恢复需要的内存融合锁。根据恢复集中包含的数据块，向其他实例申请对应数据块需要的锁和块。
　　阶段3：遍历整个恢复集，将数据的改变应用到数据文件。SMON对比数据文件中的块和恢复集中的块，根据redo.log中的信息将数据块恢复到最新版本，在完成实例恢复后，释放IR锁，并通知其他实例恢复结束。
　　当某一个实例在被异常关闭后，重启时并不需要进行实例恢复，因为在该实例被异常关闭后，其他实例已经完成了对该实例的恢复。
　　单实例的实例恢复也会经历上面的3个阶段，只不过SMON不需要和其他的实例竞争IR锁，因为只有一个实例。而在第二阶段也不需要获得块上相应的锁，因为在进行实例恢复的时候数据库还没有打开。

页: [1]

运维网's Archiver

Oracle RAC 实例管理（Cluster Group Service）