高可用系统设计面试题总结：限流、熔断、重试、幂等、容灾与压测

Guide约 1823 字大约 6 分钟

高可用系统面试考的不是“系统永远不出问题”，而是你是否理解：故障一定会发生，关键是系统能不能限制故障范围、快速恢复，并避免把小故障放大成全站事故。

这篇文章把 JavaGuide 现有高可用相关文章串成一条面试复习路线，适合准备后端开发、系统设计和中高级岗位面试。

高可用面试先建立故障视角

高可用设计可以从 5 个问题开始拆：

只要围绕这 5 个问题展开，高可用系统设计题就不会答散。

先建立整体框架，再看具体手段。

重点文章：

高频面试问题：

这一阶段重点理解“系统会坏”这个前提。高可用设计的核心不是追求零故障，而是让故障可预期、可隔离、可恢复。

限流、降级、熔断经常一起被问，但它们解决的问题不一样。

重点文章：

高频面试问题：

回答这类问题时，要说明触发条件和恢复机制。比如熔断不是“一失败就立刻切断”，而是需要错误率、慢调用比例、最小请求数、恢复探测等规则配合。不同实现（如 Sentinel、Resilience4j）的默认参数和窗口机制有差异，面试时最好能说出你用过的一种具体配置。

超时、重试、幂等是线上事故里非常常见的组合题。

重点文章：

高频面试问题：

这部分最重要的结论是：重试必须和超时、限流、幂等一起设计。没有幂等的重试可能造成重复下单、重复扣款；没有退避的重试可能把下游彻底打挂。读操作重试相对安全，写操作重试必须配合幂等，重试次数通常建议控制在 3 次以内。

很多同学准备高可用面试时只背方案，忽略验证视角。真实系统里，如果没有压测和监控，高可用设计就只是纸面设计。

重点文章：

高频面试问题：

面试里可以这样收束答案：上线前通过压测确认容量边界，上线后通过监控发现异常，通过限流降级保护系统，通过预案和演练缩短恢复时间。

遇到“如何设计一个高可用系统”这类题，可以按下面的顺序回答：

这样答的好处是不会堆概念，而是沿着故障传播路径一步步收敛风险。