[alibaba/nacos]当服务器cpu满的时候,nacos集群不生效

2025-10-30 21 views
4

我的nacos服务一共3个节点,当一个节点磁盘满导致nacos日志无法正常写入,cpu会飙升至99.98%,此时我的所有服务(也是集群)不断处于上线,下线,上线的状态,从nacos的服务列表中表象来看目前是这样,请问这个是否会有这样的情况

回答

9

cpu跑满,肯定存在资源争抢, 大量心跳无法处理,有上下线是正常的。

6

@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群

4

如何去规避,以及nacos的日志配置是否有可以配置的地方,比如设置时限。并不需要我们人为的去删除或者配置脚本,更希望通过配置项去解决这方面的问题

3

这一个节点cpu慢了, 会导致其他节点向这个节点的探测时好时坏,相当于有个server节点不停的入集群,出集群,长期这样肯定会影响数据同步,责任节点计算等等。

9

这一个节点cpu慢了, 会导致其他节点向这个节点的探测时好时坏,相当于有个server节点不停的入集群,出集群,长期这样肯定会影响数据同步,责任节点计算等等。

如何去规避,以及nacos的日志配置是否有可以配置的地方,比如设置时限。并不需要我们人为的去删除或者配置脚本,更希望通过配置项去解决这方面的问题

nacos/conf/nacos-logback.xml

2

出现问题最好先从集群摘除节点或者彻底停止,让其他节点处于稳定状态, 再去修复有问题节点。

8

@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群

我理解集群要保证一致性,一个节点日志写不了那所有节点都失败,否则节点和节点的日志都不一样

2

@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群

我理解集群要保证一致性,一个节点日志写不了那所有节点都失败,否则节点和节点的日志都不一样

这个日志是程序的logback日志吧,不是raft日志吧,这种日志为啥要一致

7

@KomachiSion hi,请问现在可以通过什么方式不停止节点而摘除节点啊,我发现之前有个/leave的接口给干了...

8

改cluster.conf文件, 这个文件动态读取的

6

改cluster.conf文件, 这个文件动态读取的

问题是nacos不是会把节点信息存放在data目录下么? 你就算改了cluster.conf文件,旧的IP已经被存储了,它还是会去找那个节点啊

2

不会,cluster.conf修改, 读取到之后会把下线的ip移除掉,

可以读一下ServerMemberManager和对应的LookUp