我的nacos服务一共3个节点,当一个节点磁盘满导致nacos日志无法正常写入,cpu会飙升至99.98%,此时我的所有服务(也是集群)不断处于上线,下线,上线的状态,从nacos的服务列表中表象来看目前是这样,请问这个是否会有这样的情况
[alibaba/nacos]当服务器cpu满的时候,nacos集群不生效
回答
cpu跑满,肯定存在资源争抢, 大量心跳无法处理,有上下线是正常的。
@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群
如何去规避,以及nacos的日志配置是否有可以配置的地方,比如设置时限。并不需要我们人为的去删除或者配置脚本,更希望通过配置项去解决这方面的问题
这一个节点cpu慢了, 会导致其他节点向这个节点的探测时好时坏,相当于有个server节点不停的入集群,出集群,长期这样肯定会影响数据同步,责任节点计算等等。
这一个节点cpu慢了, 会导致其他节点向这个节点的探测时好时坏,相当于有个server节点不停的入集群,出集群,长期这样肯定会影响数据同步,责任节点计算等等。
如何去规避,以及nacos的日志配置是否有可以配置的地方,比如设置时限。并不需要我们人为的去删除或者配置脚本,更希望通过配置项去解决这方面的问题
nacos/conf/nacos-logback.xml
出现问题最好先从集群摘除节点或者彻底停止,让其他节点处于稳定状态, 再去修复有问题节点。
@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群
我理解集群要保证一致性,一个节点日志写不了那所有节点都失败,否则节点和节点的日志都不一样
@ccx1 @KomachiSion 这个问题跟我提的 #10148 问题是一样的 问题并不是说CPU跑满的问题,问题是为啥一个节点出问题,要影响一个集群
我理解集群要保证一致性,一个节点日志写不了那所有节点都失败,否则节点和节点的日志都不一样
这个日志是程序的logback日志吧,不是raft日志吧,这种日志为啥要一致
@KomachiSion hi,请问现在可以通过什么方式不停止节点而摘除节点啊,我发现之前有个/leave的接口给干了...
改cluster.conf文件, 这个文件动态读取的
改cluster.conf文件, 这个文件动态读取的
问题是nacos不是会把节点信息存放在data目录下么? 你就算改了cluster.conf文件,旧的IP已经被存储了,它还是会去找那个节点啊
不会,cluster.conf修改, 读取到之后会把下线的ip移除掉,
可以读一下ServerMemberManager和对应的LookUp