客户反馈系统异常无法正常访问,检查发现监听异常
C:\Users\Administrator>crsctl status res -t -------------------------------------------------------------------------------- NAME TARGET STATE SERVER STATE_DETAILS -------------------------------------------------------------------------------- Local Resources -------------------------------------------------------------------------------- ora.DATA.dg ONLINE ONLINE rac2 ora.LISTENER.lsnr ONLINE INTERMEDIATE rac2 Not All Endpoints R egistered ora.asm ONLINE ONLINE rac2 Started ora.gsd OFFLINE OFFLINE rac2 ora.net1.network ONLINE ONLINE rac2 ora.ons ONLINE ONLINE rac2 ora.registry.acfs ONLINE ONLINE rac2 -------------------------------------------------------------------------------- Cluster Resources -------------------------------------------------------------------------------- ora.LISTENER_SCAN1.lsnr 1 ONLINE INTERMEDIATE rac2 Not All Endpoints R egistered ora.cvu 1 ONLINE ONLINE rac2 ora.oc4j 1 ONLINE ONLINE rac2 ora.rac.db 1 ONLINE ONLINE rac2 Open 2 ONLINE OFFLINE ora.rac1.vip 1 ONLINE OFFLINE ora.rac2.vip 1 ONLINE OFFLINE ora.scan1.vip 1 ONLINE OFFLINE C:\Users\Administrator>lsnrctl status LSNRCTL for 64-bit Windows: Version 11.2.0.3.0 - Production on 12-6月 -2015 15:50:43 Copyright (c) 1991, 2011, Oracle. All rights reserved. 正在连接到 (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521)) LISTENER 的 STATUS ------------------------ 别名 LISTENER 版本 TNSLSNR for 64-bit Windows: Version 11.2.0.3.0 - Production 启动日期 12-6月 -2015 15:31:30 正常运行时间 0 天 0 小时 19 分 20 秒 跟踪级别 off 安全性 ON: Local OS Authentication SNMP OFF 监听程序参数文件 D:\app\11.2.0\grid\network\admin\listener.ora 监听程序日志文件 D:\app\11.2.0\grid\log\diag\tnslsnr\rac2\listener\alert\log.xml 监听端点概要... (DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(PIPENAME=\\.\pipe\LISTENERipc))) (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=10.63.64.70)(PORT=1521))) 监听程序不支持服务 命令执行成功
通过这里可以看到LISTENER和LISTENER_SCAN1为Not All Endpoints Registered状态,而且这个RAC只有一个节点rac2,rac1节点未加入到集群中.进一步检查IP和hosts文件
C:\Users\Administrator>ipconfig -all Windows IP 配置 主机名 . . . . . . . . . . . . . : rac2 主 DNS 后缀 . . . . . . . . . . . : 节点类型 . . . . . . . . . . . . : 混合 IP 路由已启用 . . . . . . . . . . : 否 WINS 代理已启用 . . . . . . . . . : 否 以太网适配器 pub: 连接特定的 DNS 后缀 . . . . . . . : 描述. . . . . . . . . . . . . . . : Intel(R) 82576 Gigabit Dual Port Network Connection #2 物理地址. . . . . . . . . . . . . : 00-25-90-5A-0F-47 DHCP 已启用 . . . . . . . . . . . : 否 自动配置已启用. . . . . . . . . . : 是 本地链接 IPv6 地址. . . . . . . . : fe80::c5ef:663f:7333:45f2%12(首选) IPv4 地址 . . . . . . . . . . . . : 10.63.64.70(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.192 默认网关. . . . . . . . . . . . . : 10.63.64.126 DHCPv6 IAID . . . . . . . . . . . : 301999504 DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-1A-5C-19-A1-00-25-90-5A-0F-46 DNS 服务器 . . . . . . . . . . . : 218.30.19.40 TCPIP 上的 NetBIOS . . . . . . . : 已启用 以太网适配器 priv: 连接特定的 DNS 后缀 . . . . . . . : 描述. . . . . . . . . . . . . . . : Intel(R) 82576 Gigabit Dual Port Network Connection 物理地址. . . . . . . . . . . . . : 00-25-90-5A-0F-46 DHCP 已启用 . . . . . . . . . . . : 否 自动配置已启用. . . . . . . . . . : 是 本地链接 IPv6 地址. . . . . . . . : fe80::c88d:78ff:d2e8:bde1%11(首选) IPv4 地址 . . . . . . . . . . . . : 10.10.1.2(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.0 默认网关. . . . . . . . . . . . . : DHCPv6 IAID . . . . . . . . . . . : 234890640 DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-1A-5C-19-A1-00-25-90-5A-0F-46 DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1 fec0:0:0:ffff::2%1 fec0:0:0:ffff::3%1 TCPIP 上的 NetBIOS . . . . . . . : 已启用 --hosts文件 10.63.64.69 rac1 10.63.64.70 rac2 10.63.64.71 rac1-vip 10.63.64.72 rac2-vip 10.63.64.73 scan-cluster 10.10.1.1 rac1-priv 10.10.1.2 rac2-priv
这里可以看到主机之上的pub网卡只有一个ip 10.63.64.70,不太符合我们对rac的理解(一般来说其上应该有vip,部分情况下甚至可能有scan ip),尝试ping vip和scan ip
C:\Users\Administrator>ping 10.63.64.72 正在 Ping 10.63.64.72 具有 32 字节的数据: 来自 10.63.64.72 的回复: 字节=32 时间<1ms TTL=128 来自 10.63.64.72 的回复: 字节=32 时间<1ms TTL=128 来自 10.63.64.72 的回复: 字节=32 时间<1ms TTL=128 10.63.64.72 的 Ping 统计信息: 数据包: 已发送 = 3,已接收 = 3,丢失 = 0 (0% 丢失), 往返行程的估计时间(以毫秒为单位): 最短 = 0ms,最长 = 0ms,平均 = 0ms Control-C ^C C:\Users\Administrator>ping 10.63.64.73 正在 Ping 10.63.64.73 具有 32 字节的数据: 来自 10.63.64.73 的回复: 字节=32 时间<1ms TTL=128 来自 10.63.64.73 的回复: 字节=32 时间<1ms TTL=128 来自 10.63.64.73 的回复: 字节=32 时间<1ms TTL=128 10.63.64.73 的 Ping 统计信息: 数据包: 已发送 = 3,已接收 = 3,丢失 = 0 (0% 丢失), 往返行程的估计时间(以毫秒为单位): 最短 = 0ms,最长 = 0ms,平均 = 0ms
这里发现一个异常问题:crs显示只有rac2在集群之中,而该主机ip中又不存在vip和scan ip属于异常情况,但是这两个ip又可以ping通,基于这样情况,我第一反应就是vip和scanip可能飘到rac1中了,而rac1又未正常加入到crs中(因为这个库以前处理过,由于rac1的hba卡有问题,数据库无法正常启动,crs起来也无法提供工作),检查rac1机器情况
C:\Users\Administrator>crsctl status res -t CRS-4535: 无法与集群就绪服务通信 CRS-4000: 命令 Status 失败, 或已完成但出现错误。 C:\Users\Administrator>crsctl status res -t -init -------------------------------------------------------------------------------- NAME TARGET STATE SERVER STATE_DETAILS -------------------------------------------------------------------------------- Cluster Resources -------------------------------------------------------------------------------- ora.asm 1 ONLINE ONLINE rac1 Started ora.crf 1 ONLINE ONLINE rac1 ora.crsd 1 ONLINE OFFLINE ora.cssd 1 ONLINE ONLINE rac1 ora.cssdmonitor 1 ONLINE ONLINE rac1 ora.ctssd 1 ONLINE ONLINE rac1 OBSERVER ora.drivers.acfs 1 ONLINE ONLINE rac1 ora.evmd 1 ONLINE ONLINE rac1 ora.gipcd 1 ONLINE ONLINE rac1 ora.gpnpd 1 ONLINE ONLINE rac1 ora.mdnsd 1 ONLINE ONLINE rac1 以太网适配器 pub: 连接特定的 DNS 后缀 . . . . . . . : 描述. . . . . . . . . . . . . . . : Intel(R) 82576 Gigabit Dual Port Network Connection 物理地址. . . . . . . . . . . . . : 00-25-90-5A-0E-E7 DHCP 已启用 . . . . . . . . . . . : 否 自动配置已启用. . . . . . . . . . : 是 本地链接 IPv6 地址. . . . . . . . : fe80::409d:8c2e:446b:af42%11(首选) IPv4 地址 . . . . . . . . . . . . : 10.63.64.69(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.192 IPv4 地址 . . . . . . . . . . . . : 10.63.64.71(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.192 IPv4 地址 . . . . . . . . . . . . : 10.63.64.72(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.192 IPv4 地址 . . . . . . . . . . . . : 10.63.64.73(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.192 默认网关. . . . . . . . . . . . . : 10.63.64.126 DHCPv6 IAID . . . . . . . . . . . : 234890640 DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-1A-5C-19-0A-00-25-90-5A-0E-E7 DNS 服务器 . . . . . . . . . . . : 8.8.8.8 TCPIP 上的 NetBIOS . . . . . . . : 已启用 以太网适配器 priv: 连接特定的 DNS 后缀 . . . . . . . : 描述. . . . . . . . . . . . . . . : Intel(R) 82576 Gigabit Dual Port Network Connection #2 物理地址. . . . . . . . . . . . . : 00-25-90-5A-0E-E6 DHCP 已启用 . . . . . . . . . . . : 否 自动配置已启用. . . . . . . . . . : 是 本地链接 IPv6 地址. . . . . . . . : fe80::154:dad7:f9e3:bea3%13(首选) IPv4 地址 . . . . . . . . . . . . : 10.10.1.1(首选) 子网掩码 . . . . . . . . . . . . : 255.255.255.0 默认网关. . . . . . . . . . . . . : DHCPv6 IAID . . . . . . . . . . . : 301999504 DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-1A-5C-19-0A-00-25-90-5A-0E-E7 DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1 fec0:0:0:ffff::2%1 fec0:0:0:ffff::3%1 TCPIP 上的 NetBIOS . . . . . . . : 已启用
果然这里rac2的vip和scan ip都漂到rac1中,但是crs状态属于不正常情况,由于rac1无法正常使用,关闭该主机,并重启rac2(由于rac2处于异常情况无法正常工作),后续rac2恢复正常
C:\Users\Administrator>crsctl status res -t -------------------------------------------------------------------------------- NAME TARGET STATE SERVER STATE_DETAILS -------------------------------------------------------------------------------- Local Resources -------------------------------------------------------------------------------- ora.DATA.dg ONLINE ONLINE rac2 ora.LISTENER.lsnr ONLINE ONLINE rac2 ora.asm ONLINE ONLINE rac2 Started ora.gsd OFFLINE OFFLINE rac2 ora.net1.network ONLINE ONLINE rac2 ora.ons ONLINE ONLINE rac2 ora.registry.acfs ONLINE ONLINE rac2 -------------------------------------------------------------------------------- Cluster Resources -------------------------------------------------------------------------------- ora.LISTENER_SCAN1.lsnr 1 ONLINE ONLINE rac2 ora.cvu 1 ONLINE ONLINE rac2 ora.oc4j 1 ONLINE ONLINE rac2 ora.rac.db 1 OFFLINE OFFLINE Instance Shutdown 2 ONLINE ONLINE rac2 Open ora.rac1.vip 1 ONLINE INTERMEDIATE rac2 FAILED OVER ora.rac2.vip 1 ONLINE ONLINE rac2 ora.scan1.vip 1 ONLINE ONLINE rac2 C:\Users\Administrator>lsnrctl status LSNRCTL for 64-bit Windows: Version 11.2.0.3.0 - Production on 12-6月 -2015 17:02:46 Copyright (c) 1991, 2011, Oracle. All rights reserved. 正在连接到 (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521)) LISTENER 的 STATUS ------------------------ 别名 LISTENER 版本 TNSLSNR for 64-bit Windows: Version 11.2.0.3.0 - Production 启动日期 12-6月 -2015 16:44:43 正常运行时间 0 天 0 小时 18 分 3 秒 跟踪级别 off 安全性 ON: Local OS Authentication SNMP OFF 监听程序参数文件 D:\app\11.2.0\grid\network\admin\listener.ora 监听程序日志文件 D:\app\11.2.0\grid\log\diag\tnslsnr\rac2\listener\alert\log.xml 监听端点概要... (DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(PIPENAME=\\.\pipe\LISTENERipc))) (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=10.63.64.70)(PORT=1521))) (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=10.63.64.72)(PORT=1521))) 服务摘要.. 服务 "+ASM" 包含 1 个实例。 实例 "+asm2", 状态 READY, 包含此服务的 1 个处理程序... 服务 "rac" 包含 1 个实例。 实例 "rac2", 状态 READY, 包含此服务的 1 个处理程序... 服务 "racXDB" 包含 1 个实例。 实例 "rac2", 状态 READY, 包含此服务的 1 个处理程序... 命令执行成功
出现该问题的原因至此可以总结出来:由于rac1和rac2的集群处于异常状态,rac1持有了vip和scan ip,但是又未正常加入crs,导致rac2无法获得vip和scan ip,从而使得LISTENER和LISTENER_SCAN1为Not All Endpoints Registered状态.另外对于不能正常工作的集群节点,建议关闭crs,甚至可以考虑关闭主机,减少异常节点对正常节点的影响.关于该类问题的分析,可以从Scan Listener In INTERMEDIATE Mode Not All Endpoints Registered (Doc ID 1667873.1)中找到依据,证明是由于IP被占用导致.