部署三个nacos节点,通过nginx反向代理,其中一个节点总是在启动2小时候自动下线,日志报错健康检查失败,其他节点都无此情况,仅仅这一个有这个问题,该从什么方向去排查呢?
Q
[alibaba/nacos]有人遇到过部署nacos集群,其中一个节点在启动2小时候后会自动下线
6
A
回答
0
下线的节点本身有无日志报错?
2
出问题的时候可以看下GC,日志等信息。
并且试一下直接访问这个故障节点是否还能响应请求等。
9
@wilsonwu 下线之后这个机器的nacos进程就不存在了,在nacos.log中会发现Server healthy check fail 这种INFO级别的得日志
5
下直接访问这个故障节点是否还能响应请求等。
下线之后,这个故障节点已经没有进程了。所以肯定访问不到,相当于nacos自动shutdown了
2
了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。
9
了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。
谢谢您,目前我新接入一个新的机器,部署了一个新的节点,观察一下新节点是否有这个问题,如果新节点问题没有复现,我怀疑是服务器某些问题导致
3
了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。
另外向您请教,我查看了nacos.log nacos-cluster.log namng-server.log 没有发现具体下线原因的日志,请问还有哪些日志可以排查吗
7
按理说就是这几个日志能看到相关问题,可能有一些情况是由于某些异常情况日志都没有记录,可以适当给多一点节点资源,观察一下新节点是否有类似问题。
9
目前经过调查发现是服务器内存不足,导致进程被杀的原因,感谢两位提供思路
0
Welcome, Java程序是很吃内存的 :)