AI 系统设计面试题总结

Guide约 3345 字大约 11 分钟

AI 系统设计题和传统后端系统设计很像，但多了一个特别麻烦的变量：大模型。

传统服务通常遵循确定性的输入输出，出了问题可以按日志、链路、数据库状态逐步定位。AI 应用不一样，模型输出有随机性，Prompt 会影响行为，RAG 证据会影响答案，工具调用可能失败，供应商可能限流，评测还不能只靠单元测试。

所以，AI 系统设计面试真正考的是：你能不能把一个 Prompt Demo 设计成稳定、可观测、可评测、可回滚、可治理的生产系统。

这份 AI 系统设计面试题根据 AI 专栏现有文章整理，适合 2 年以上开发者复习。建议你按这条主线准备：

先讲清 Prompt Demo 和生产系统的差距。
再拆整体架构：入口、编排、上下文、RAG、Memory、Tool、模型网关、异步任务、观测评测。
接着讲关键链路：一次请求如何鉴权、检索、组装上下文、调用模型、校验输出、记录 Trace。
然后讲治理能力：成本、限流、降级、安全、审计、灰度、回滚。
最后讲评测闭环：Golden Set、Trace 回放、线上灰度和人工复核。

面试官真正想考什么

AI 系统设计题一般不会满足于“我用 LangChain 搭一个 RAG”。面试官更想看你是否有生产级架构意识。

考察方向	面试官想确认什么	常见扣分点
整体架构	你能否把 AI 应用拆成清晰分层	上来就讲框架，不讲链路和边界
模型网关	你是否知道模型调用需要统一治理	业务代码直接耦合供应商 API
Prompt/Context	你是否知道提示词和上下文要版本化、可回放	Prompt 写死在代码里
RAG/Memory/Tool	你是否能区分知识、记忆和真实业务动作	把所有上下文混在一起塞给模型
可观测与评测	你是否能证明系统质量变化	只靠人工试几条问题
安全合规	你是否知道模型不能绕过业务权限	只靠 Prompt 防越权和注入

系统设计题最怕空泛。好的回答要能沿着一次请求说清楚：用户请求进来后，经过哪些模块，每个模块解决什么问题，出了问题怎么定位，质量下降怎么回滚。

生产级 AI 应用架构

参考文章：《AI 应用系统设计：从 Prompt Demo 到生产级架构》

这一组题是 AI 系统设计的核心。你要能把 AI 应用拆成多个工程模块，而不是只说“前端发请求，后端调模型”。

建议掌握这些关键点：

Prompt Demo 证明的是模型能回答，生产系统要证明的是系统能长期、稳定、可控地回答。
入口层负责鉴权、租户、限流、参数校验和请求分类。
编排层负责判断任务类型，是普通问答、RAG、Agent、多工具任务，还是异步批处理。
Prompt/Context 层负责模板版本、变量校验、历史消息、检索证据、用户画像和工具说明。
RAG 管共享知识，Memory 管个性化长期事实，Tool 管真实业务动作，三者要分开治理。
模型网关负责供应商适配、路由、fallback、限流、熔断、Token 预算、成本归因和观测。
评测观测层负责 Trace、日志、指标、Golden Set、LLM-as-Judge、灰度和回放。

高频面试题：

Prompt Demo 到生产系统最大的差距是什么？
怎么设计一个生产级 AI 应用的整体架构？
一次 AI 请求从入口到模型返回，完整链路应该怎么讲？
入口层、编排层、Prompt/Context、RAG/Memory/Tool、模型网关、评测观测分别承担什么职责？
同步、流式、异步三种模式怎么选？
为什么需要模型网关？
Prompt 为什么要做版本管理？
RAG 和 Memory 有什么区别？为什么不能混在一起治理？
Tool Calling 的安全边界在哪里？
AI 应用可观测要看哪些指标？
LLM-as-Judge 能不能替代人工评测？

回答“怎么设计生产级 AI 应用”时，可以用一个通用模板：先说明业务目标和约束，再讲分层架构，然后讲一次请求链路，接着讲稳定性、安全、成本、观测和评测，最后讲灰度和回滚。这样比直接报一堆技术名词更有说服力。

稳定性、成本与安全治理

参考文章：《AI 应用系统设计：从 Prompt Demo 到生产级架构》、《大模型 API 调用工程实践：流式输出、重试、限流与结构化返回》

这一组题考的是生产意识。大模型调用慢、贵、不稳定，输出还不可完全控。没有治理能力，AI 应用很容易在上线后变成成本黑洞和事故来源。

建议掌握这些关键点：

超时要分层设置：入口超时、模型调用超时、工具调用超时、异步任务超时。
重试只适合网络瞬断、部分 5xx、供应商过载等可恢复错误；参数错误、权限错误、安全拒答不能盲目重试。
限流要同时看请求数、Token 数、并发数、租户预算和模型供应商配额。
fallback 要谨慎。模型降级可能影响质量、格式、工具调用能力和安全策略，不是所有任务都能自动降级。
Token 成本要归因到租户、用户、功能、模型、Prompt 版本和业务场景。
Tool Calling 安全必须由后端强制执行，不能相信模型自己判断权限。

高频面试题：

AI 应用如何做超时、重试、限流、熔断和降级？
为什么大模型调用限流要同时看 RPM、TPM、并发数和租户预算？
如何设计模型 fallback 策略？什么时候不能自动降级？
Token 成本怎么归因到租户、用户、功能和 Prompt 版本？
高风险工具调用为什么要做二次确认？
PII 脱敏、权限过滤、审计日志应该放在哪些环节？
Prompt 注入攻击在系统设计层面怎么防？
出现模型输出事故后，如何通过 Trace 回放定位问题？

回答安全题时，一定要强调：Prompt 只能辅助，不能替代代码层面的权限校验。模型可以建议调用工具，但后端必须校验用户身份、资源归属、参数范围、操作风险和幂等状态。

评测与持续迭代

参考文章：《AI 应用评测体系：从 Golden Set 构建到线上灰度闭环》

传统系统上线前可以跑单元测试、集成测试、压测；AI 应用还要评测答案质量、检索质量、工具轨迹和结构化输出稳定性。没有评测闭环，就很难知道一次 Prompt 调整、模型切换、检索参数变化到底是提升还是退步。

建议掌握这些关键点：

Golden Set 是发布前质量回归的基础，应该覆盖正常路径、边缘场景、对抗样本和高权重失败。
离线评测适合发布前阻断明显退步，Trace 回放适合复现真实线上路径，线上灰度适合验证真实用户分布。
RAG 要分检索和生成评测，Agent 要看任务完成率、工具选择、参数准确率和轨迹质量。
LLM-as-Judge 可以提高效率，但要用人工抽样、规则校验和参考答案校准。
评测结果要和 Prompt 版本、模型版本、检索配置、代码版本绑定，便于回滚和定位。

高频面试题：

为什么没有评测集就很难放心上线？
Golden Set 如何覆盖正常路径、边缘场景、对抗样本和高权重失败？
离线评测、Trace 回放、线上灰度分别放在发布流程的哪个阶段？
RAG、Agent、结构化输出的评测指标为什么不能混用一套？
LLM-as-Judge 有哪些偏差？生产中怎么校准？
CI 自动评测怎么控制成本和耗时？
线上质量下降时，如何判断是模型、Prompt、检索、工具还是数据分布变化导致？

面试里可以把评测讲成一条流水线：开发阶段跑小规模核心 Golden Set，合并或发布前跑完整评测，灰度阶段做线上抽样，事故后用 Trace 回放复现，失败样本再回流到评测集。

实时语音 Agent

参考文章：《AI 语音技术详解：从 ASR、TTS 到实时语音 Agent 的工程化落地》

实时语音 Agent 是很典型的 AI 系统设计题，因为它同时考多模态链路、低延迟、状态机、打断处理和端云选型。

建议掌握这些关键点：

语音 Agent 不是 ASR + LLM + TTS 的简单拼接，而是一套实时音频流系统。
完整链路包括音频采集、VAD、ASR、LLM、工具调用、TTS、流式播放和打断处理。
端到端延迟来自多个环节：音频帧提交、VAD 判断、ASR 转写、LLM 首字、TTS 首包、网络和播放缓冲。
打断处理要取消播放、取消生成、处理已播放内容和未播放内容，并更新对话状态。
云端 API 上线快，本地模型可控但工程成本高，端云混合更适合兼顾体验和成本。

高频面试题：

如何设计一个实时语音 Agent？
ASR、LLM、TTS、VAD 在语音系统中分别负责什么？
实时语音 Agent 的端到端延迟主要来自哪里？
用户打断时，系统应该如何取消播放、取消生成和更新上下文？
listening、thinking、speaking、interrupted 这些状态如何管理？
云端 API、本地模型、端云混合怎么选？
Speech-to-Speech API 适合什么场景？有哪些取舍？
语音 Agent 的可观测指标应该包括哪些？

回答实时语音题时，可以先拆链路，再讲低延迟优化，接着讲状态机和打断，最后讲可观测和选型。不要只停留在“调用语音识别和语音合成接口”。

系统设计答题模板

遇到开放式 AI 系统设计题，可以按下面顺序回答：

明确场景和约束：用户规模、响应时延、数据来源、权限要求、成本预算、质量目标。
拆分核心链路：入口、编排、上下文、RAG、Memory、Tool、模型网关、输出校验、观测评测。
讲关键数据流：一次请求如何鉴权、检索、组装 Prompt、调用模型、处理流式输出、记录 Trace。
补治理能力：限流、熔断、重试、幂等、fallback、成本归因、权限控制、审计日志。
讲评测闭环：Golden Set、离线评测、Trace 回放、线上灰度、失败样本回流。
说明取舍边界：哪些场景同步，哪些场景流式，哪些场景异步；哪些任务允许降级，哪些必须人工确认。

这套模板能覆盖大多数 AI 应用系统设计题，包括智能客服、企业知识库、代码助手、数据分析 Agent、语音 Agent。

常见扣分点

上来就讲框架名，不讲业务约束和系统边界。
只讲 Prompt 和模型，不讲 RAG、Memory、Tool 的治理差异。
没有模型网关意识，业务代码直接调用供应商 API。
不记录 Prompt 版本、模型版本、检索结果、工具轨迹，导致事故无法回放。
把 LLM-as-Judge 当成万能评测，不做人工校准和规则校验。
只靠 Prompt 做安全防护，忽略权限、脱敏、审计和二次确认。
没有灰度、回滚和失败样本回流机制。

复习建议

AI 系统设计面试要按“系统链路”来回答，不要从某个框架或工具名开始。更稳的表达方式是先讲 Demo 和生产差距，再讲分层架构、核心链路、治理能力和评测闭环。

如果面试官继续追问，再展开模型网关、Prompt 版本、RAG 和 Memory 隔离、Tool Calling 安全、Trace 回放、灰度评测这些关键点。

最后记住一句话：AI 系统设计不是让模型回答一次，而是让系统长期、稳定、可控地回答。 能把这句话展开成架构、链路、治理和评测，基本就能答到面试官想听的层次。