[alibaba/nacos]有人遇到过部署nacos集群,其中一个节点在启动2小时候后会自动下线

2025-11-10 266 views
6

部署三个nacos节点,通过nginx反向代理,其中一个节点总是在启动2小时候自动下线,日志报错健康检查失败,其他节点都无此情况,仅仅这一个有这个问题,该从什么方向去排查呢?

回答

0

下线的节点本身有无日志报错?

2

出问题的时候可以看下GC,日志等信息。

并且试一下直接访问这个故障节点是否还能响应请求等。

9

@wilsonwu 下线之后这个机器的nacos进程就不存在了,在nacos.log中会发现Server healthy check fail 这种INFO级别的得日志

5

下直接访问这个故障节点是否还能响应请求等。

下线之后,这个故障节点已经没有进程了。所以肯定访问不到,相当于nacos自动shutdown了

2

了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。

9

了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。

谢谢您,目前我新接入一个新的机器,部署了一个新的节点,观察一下新节点是否有这个问题,如果新节点问题没有复现,我怀疑是服务器某些问题导致

3

了解了,那么还是要回归到排查为什么节点会下线,需要持久化日志到某个地方,然后进行排查,或者接入到一些可观测模块通过监控排查。

另外向您请教,我查看了nacos.log nacos-cluster.log namng-server.log 没有发现具体下线原因的日志,请问还有哪些日志可以排查吗

7

按理说就是这几个日志能看到相关问题,可能有一些情况是由于某些异常情况日志都没有记录,可以适当给多一点节点资源,观察一下新节点是否有类似问题。

9

目前经过调查发现是服务器内存不足,导致进程被杀的原因,感谢两位提供思路

0

Welcome, Java程序是很吃内存的 :)