[alibaba/nacos]有人遇到过部署nacos集群，其中一个节点在启动2小时候后会自动下线

部署三个nacos节点，通过nginx反向代理，其中一个节点总是在启动2小时候自动下线，日志报错健康检查失败，其他节点都无此情况，仅仅这一个有这个问题，该从什么方向去排查呢?

xufeifan1992

下线的节点本身有无日志报错？

wilsonwu

出问题的时候可以看下GC，日志等信息。

并且试一下直接访问这个故障节点是否还能响应请求等。

KomachiSion

@wilsonwu 下线之后这个机器的nacos进程就不存在了，在nacos.log中会发现Server healthy check fail 这种INFO级别的得日志

xufeifan1992

下直接访问这个故障节点是否还能响应请求等。

下线之后，这个故障节点已经没有进程了。所以肯定访问不到，相当于nacos自动shutdown了

xufeifan1992

了解了，那么还是要回归到排查为什么节点会下线，需要持久化日志到某个地方，然后进行排查，或者接入到一些可观测模块通过监控排查。

wilsonwu

了解了，那么还是要回归到排查为什么节点会下线，需要持久化日志到某个地方，然后进行排查，或者接入到一些可观测模块通过监控排查。

谢谢您，目前我新接入一个新的机器，部署了一个新的节点，观察一下新节点是否有这个问题，如果新节点问题没有复现，我怀疑是服务器某些问题导致

xufeifan1992

了解了，那么还是要回归到排查为什么节点会下线，需要持久化日志到某个地方，然后进行排查，或者接入到一些可观测模块通过监控排查。

另外向您请教，我查看了nacos.log nacos-cluster.log namng-server.log 没有发现具体下线原因的日志，请问还有哪些日志可以排查吗

xufeifan1992

按理说就是这几个日志能看到相关问题，可能有一些情况是由于某些异常情况日志都没有记录，可以适当给多一点节点资源，观察一下新节点是否有类似问题。

wilsonwu

目前经过调查发现是服务器内存不足，导致进程被杀的原因，感谢两位提供思路

xufeifan1992

Welcome, Java程序是很吃内存的 :)

wilsonwu

回答