6. Redis Cluster 常见运维开发问题和故障转移

2021/8/16 2:05:48

编程Tag： key Redis 节点集群 Cluster 运维故障下线

本文主要是介绍6. Redis Cluster 常见运维开发问题和故障转移，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1. 集群完整性：

　cluster-require-full-coverage yes

2. 带宽消耗：

　官方建议：<= 1000

　三个方面

　带宽消耗优化建议：

3. Pub/Sub：

4. 集群倾斜：

数据倾斜
1. 节点间 slot 分配不均，有的 slot 分配少，有的多
2. 不同 slot 对应的 key value 数值差异较大
3. 包含 bigkey
4. 内存相关配置不一致
请求倾斜：
1. 某些大量使用的 key 或 bigkey 被分配到了相同的 slot 或 node，（热点 key）

5. 集群限制：

6. Redis 故障发现

主观下线：某个节点认为另一个节点不可用，就设置这个节点为主观下线，具体是节点间的最后心跳时间超过 node-timeout，即可标记为 pfail 状态
节点将自己认为主观下线的其他节点信息通过心跳发送给其他可用节点，其他节点更新故障列表
客观下线：当半数以上持有槽的主节点都标记某个节点主观下线，即认为这个节点客观下线
尝试客观下线：先计算有效下线报告数量，如果大于槽节点总数一半，更新为客观下线，向集群广播下线节点的 fail 消息，通知集群内所有节点标记故障节点为客观下线，通知故障节点的从节点触发故障转移流程

7.Redis 故障恢复

资格检查
1. 每个从节点检查与故障主节点的断线时间
2. 超过 cluster-node-timeout * cluster-slave-validity-factor 取消资格
3. cluster-slave-validity-factor 默认为10
准备选举时间
1. 根据从节点数据偏移量来设定每个节点的选举时间，偏移量越大的从节点代表数据越新，其选举时间也越早，更可能被选为新的 master
选举投票
1. 集群中的每个其他的 master 节点对选定的从节点投票，投票数 > 总主节点数 N / 2 + 1，代表可以替换原来的主节点
替换主节点
1. 当前从节点取消复制变为主节点
2. 执行 clusterDelSlot 撤销故障主节点负责的 slot，并执行 clusterAddSlot 把这些槽分配给自己
3. 向集群广播自己的 pong 消息，表明已经替换了故障节点

这篇关于6. Redis Cluster 常见运维开发问题和故障转移的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！