AI 应用开发知识体系：大模型、Agent、RAG、MCP、Prompt 工程与系统设计

Guide约 2275 字大约 8 分钟

做 AI 应用不是把 Prompt 塞进接口就结束了。真到项目里，马上会遇到上下文长度、结构化输出、RAG 召回、工具权限、评测回归、成本和稳定性这些问题。

这些问题没法各解各的。大模型基础、Agent、RAG、工具调用、系统设计必须连起来理解——只懂调用 API，到了架构评审会卡住；只熟 RAG 论文，到了知识库维护还是不知道怎么处理增量更新和版本去重。

如果时间有限，先看 AI 应用开发面试指南，把大模型、Agent、RAG、MCP 和 AI 系统设计里最容易被追问的问题过一遍；如果想补得扎实一些，再按下面的阅读顺序推进。

几个容易踩坑的地方

大模型不是黑盒 API。Token 截断、采样参数漂移、结构化输出对齐失败，这些在 Prompt 层面根本拦不住，必须在调用链路上建校验——光加一句"请以 JSON 格式输出"是不够的。

Agent 最难的不是"自动调用工具"，而是 Memory 和 Context Engineering。上下文不管好，Agent 跑几步就开始出戏，遇到长任务甚至原地循环到 token 耗尽才停。

RAG 答非所问，80% 的情况不在生成阶段，而在召回。Chunk 太大、Query 没改写、混合检索没开，一项一项排查比直接换模型有用得多。MCP、Function Calling、Tool Calling 解决的是工具接入标准化问题，但生产环境的鉴权、权限隔离和操作审计，比协议规范本身更容易被漏掉。

AI 应用上线后，稳定性、可观测、成本控制和质量回归会接连冒出来。Demo 阶段压根碰不到这些，第一次把 AI 做到生产规模的团队，几乎都被打过一次脸。

建议阅读顺序

AI 应用开发面试指南：先建立高频问题清单，知道面试和项目复盘最常被追问哪些点。
万字拆解 LLM 运行机制、大模型 API 调用工程实践：理解模型调用链路、上下文和结构化返回。
一文搞懂 AI Agent 核心概念、大模型提示词工程实践指南、上下文工程实战指南：建立 Agent 和 Prompt/Context 的基础认知。
万字详解 RAG 基础概念、RAG 文档处理与切分策略、万字详解 RAG 检索优化：补齐企业知识库问答主线。
AI 应用系统设计、大模型网关详解、AI 应用评测体系：把 Demo 放进真实后端系统里，补齐网关、评测和治理。

核心文章

面试与复习路线

AI 应用开发面试题专题：按大模型基础、AI Agent、RAG 和 AI 系统设计组织复习路线。
AI 应用开发面试指南：把 AI 应用开发常见追问放到一条复习路线里，适合先看。
大模型基础面试题总结：覆盖 Token、上下文窗口、采样参数、API 调用、结构化输出和评测体系。
AI Agent 面试题总结：覆盖 Agent Loop、Memory、Prompt、Context、MCP、Skills、Harness Engineering 和工作流。
RAG 面试题总结：覆盖 RAG 基础、向量数据库、文档处理、检索优化、GraphRAG、知识库更新和评测。
AI 系统设计面试题总结：覆盖生产级 AI 应用架构、模型网关、可观测、评测、安全治理和实时语音 Agent。

大模型基础

大模型基础专题：从模型运行机制、API 调用、结构化输出到 AI 应用评测，先把调用链路看明白。
万字拆解 LLM 运行机制：把 Token、上下文窗口、Temperature 等概念还原为清晰、可控的工程参数。
大模型 API 调用工程实践：拆解 Prompt 组装、模型网关、流式响应、重试限流和结构化返回。
大模型结构化输出详解：讲清 JSON Schema、Function Calling、Tool Calling 与 MCP 的底层链路。
AI 应用评测体系：覆盖 Golden Set、LLM-as-Judge、RAG/Agent 指标、Trace 回放和线上灰度闭环。

AI Agent

AI Agent 专题：从 Agent 基础概念、Memory、Prompt、Context 到 MCP、Skills 和 Harness Engineering。
一文搞懂 AI Agent 核心概念：理解 Agent 和传统编程、Workflow 的区别，以及 Agent Loop、Tools 注册等核心概念。
AI Agent 记忆系统：深入理解短期记忆、长期记忆、记忆生命周期和生产级优化策略。
大模型提示词工程实践指南：掌握 Prompt 四要素、常见技巧和 Prompt 注入防护。
上下文工程实战指南：理解静态规则编排、动态信息挂载、Token 预算降级和上下文持久化。
万字拆解 MCP 协议：理解 MCP 的分层架构、核心能力和 MCP Server 生产实践。
万字详解 Agent Skills：理解 Skills 与 Prompt、MCP、Function Calling 的本质区别。
一文搞懂 Harness Engineering：拆解 Model + Harness 的工程化架构和一线团队实践。
AI 工作流中的 Workflow、Graph 与 Loop：理解 AI 工作流的节点、边、状态、安全边界和实现方式。

RAG 检索增强生成

RAG 专题：围绕企业知识库问答，梳理文档处理、向量数据库、GraphRAG、检索优化和知识库更新。
万字详解 RAG 基础概念：理解 RAG 是什么、为什么需要它、核心优势和局限性。
RAG 文档处理与切分策略：覆盖文档解析、清洗、结构化、Chunking 和多模态内容处理。
万字详解 RAG 向量索引算法和向量数据库：掌握 HNSW、IVFFLAT 等索引算法和向量数据库选型。
万字详解 RAG 检索优化：覆盖 Chunk 策略、Hybrid Search、Query Rewrite、Rerank 和上下文压缩。
万字详解 GraphRAG：理解实体、关系、社区发现、全局检索与局部检索。
RAG 知识库文档更新策略：掌握增量更新、版本控制、去重和全量重建。

AI 系统设计

AI 系统设计专题：把 Prompt Demo 放进真实后端系统里看，重点关注架构、模型网关、语音链路、可观测、评测和安全治理。
AI 应用系统设计：把 Prompt Demo 放进生产链路，覆盖 Prompt 管理、模型网关、RAG、Memory、Tool 调用、可观测、评测和安全合规。
大模型网关详解：理解 LLM Gateway 的多模型路由、fallback、限流配额、成本归因、观测审计和缓存策略。
AI 语音技术详解：拆解 VAD、ASR、LLM、TTS、流式播放、打断处理和端云混合选型。

高频问题

大模型的 Token、上下文窗口、Temperature、Top P 分别会影响什么？
为什么结构化输出不能只依赖 Prompt？JSON Schema、Function Calling 和服务端校验分别解决什么问题？
Agent 和 Workflow 有什么区别？Agent Loop 中观察、规划、行动、反思如何协作？
Prompt Engineering 和 Context Engineering 有什么区别？
MCP 解决了什么问题？它和 Function Calling、Tool Calling 是什么关系？
RAG 为什么会答非所问？应该从召回、排序、上下文压缩还是生成阶段排查？
向量数据库如何选型？HNSW、IVFFLAT 这些索引适合什么场景？
AI 应用怎么评测？Golden Set、LLM-as-Judge、线上灰度和 Trace 回放如何串起来？
生产级 AI 应用为什么需要模型网关？如何做限流、fallback、成本控制和审计？

写在最后

如果内容对你有帮助的话，欢迎顺手给 JavaGuide 点一个免费的 Star 支持一下：GitHub | Gitee。

JavaGuide 已持续维护近七年，累计 6100+ 次提交，来自 620+ 位贡献者共同完善。你的 Star、反馈和 PR，都是这个项目继续更新的动力。

如果你正在准备后端/AI 应用开发面试，也可以了解一下我的知识星球，里面包括后端和 AI 实战项目、简历优化、一对一提问和高频考点资料，已经持续维护六年。