不管是硬件故障、机房断电,还是某个服务突然挂掉,单点永远是系统里最脆弱的环节。想让系统在各种意外情况下还能扛得住,最基本也最有效的办法就是 冗余——关键资源多备几份,坏了一份还有其他的顶上。
这篇文章会把冗余设计的核心概念和常见方案梳理一遍:从 RTO/RPO 这两个容灾指标,到高可用集群、同城灾备、异地多活,再到 Redis Sentinel、Keepalived 这些具体的故障转移方案。
什么是冗余?
冗余(Redundancy) 是提升系统可用性和数据持久性的常见手段,其核心思想是 通过部署多份相同的资源,当某一份资源出现故障时,其他资源可以接管其工作,从而保证系统的持续可用。
2022/6/22大约 14 分钟
