AI 应用开发分类

这几天 Loop Engineering 突然火起来，我第一反应是：这又是哪个新名词？怎么天天造新词？

看了一圈之后，感觉它确实有点新瓶装旧酒。Agent Loop、Workflow Graph、Context Engineering、Skills、MCP、CI、测试验证，这些东西 JavaGuide 之前其实都聊过。换个名字重新包装一下，味道很熟悉了。

代码 Agent 真能连续读文件、改代码、跑命令、处理 PR 之后，我们确实不能只盯着“下一句 Prompt 怎么写”。以前是人守在对话框前，一轮一轮补充提示；现在越来越多任务会由 /loop、/goal、CI、PR 评论或者定时任务触发。Agent 被叫醒后自己读材料、跑命令、写状态，卡住再把问题抛回来。

Guide2026/6/17大约 21 分钟

大模型网关详解：多模型路由、Fallback、限流与成本控制

面试官看了一眼我的 AI 项目架构图，停在 Agent 调用链那一块。

“你这个 Agent，每次都是调用旗舰模型？”

我点点头：“对啊，效果最稳。”

他继续问：“那意图分类、标题生成、JSON 修复、简单摘要，也全走旗舰模型？”

我开始有点心虚：“主要是为了稳定……”

面试官没说话，等了几秒，又问：“那如果哪天旗舰模型限流了呢？意图分类这种小任务，每个月烧掉的钱你算过吗？”

很多项目第一次接入大模型时都会踩这个坑：把“模型强”当成“系统稳”。生产环境里真正麻烦的，是不同请求的价值、延迟要求、失败代价和上下文长度完全不同，全部走同一个模型会把成本、限流、排障和质量回放搅在一起。

Guide2026/5/21大约 41 分钟

AI 应用评测体系：从 Golden Set 构建到线上灰度闭环

客服 RAG 升级混合检索和 Reranker 后，最容易出现的上线判断是：本地挑几十条问题跑一遍，答案比旧版顺，就觉得可以放量。

一周后，业务方反馈：“有些问题感觉还不如以前准。”

真正难处理的是缺少基线。旧版本在退换货、物流查询、商品参数对比上的命中率分别是多少？新版本退步的是哪一类问题？业务方说“不如以前准”，到底是质量回退，还是用户预期变高？上线前没有评测记录，排查只能回到原始对话里一条条翻。

很多 AI 应用早期都会卡在这里：上线靠体感，回滚靠体感，改完之后有没有进步还是靠体感。

没有评测集，后面的模型选择、Prompt 调整、检索优化和灰度发布都缺少同一把尺子。

Guide2026/5/14大约 47 分钟

大模型 API 调用工程实践：流式输出、重试、限流与结构化返回

很多 AI 应用的第一个版本都很“顺”：本地调通一个大模型 API，页面上能看到回答，Demo 就算跑起来了。

但一上生产，麻烦马上变得具体：

用户等了 8 秒还看不到第一个字，以为系统卡死，直接刷新页面。
模型返回了一半 JSON，前端解析失败，后端日志里只有一串残缺的 {"answer": "根因是。
供应商偶发 429，你的服务开始疯狂重试，越重试越被限流。
用户点了取消，浏览器断开了，但后端还在消耗 Token。
同一个业务请求因为重试执行了两次，落库、扣费、发通知全重复了。

Guide2026/5/8大约 32 分钟

大模型结构化输出：从 JSON 契约到 Function Calling 落地

很多开发者第一次接大模型到业务系统里，都会经历一个很尴尬的阶段：本地 Demo 跑得挺顺，Prompt 里写一句“请返回 JSON”，模型也乖乖吐出一个对象；一到生产环境，问题就开始冒头。

有时它会在 JSON 前面加一句“好的，以下是结果”；有时少一个必填字段；有时本来应该是数字的 orderId 变成字符串；更麻烦的是，边界条件一复杂，模型会补出一个业务系统根本不认识的枚举值。解析器一报错，整条链路就断了。

问题不在于模型“不听话”，而在于我们把自然语言承诺错当成了工程契约。

Guide2026/5/8大约 35 分钟

万字详解 GraphRAG：为什么只靠向量检索撑不起复杂知识问答

第一次做企业知识库问答时，通常会经历一个很相似的阶段：文档切块、Embedding、向量库、Top-K 检索、把片段塞给大模型。

Demo 很顺，领导问几个制度类问题也能回答。然后业务同事突然问：

“这几个部门过去半年反复提到的风险点是什么？它们之间有什么关联？”

向量 RAG 就开始力不从心了。

它可能找到几个相似片段，却很难把“部门”“风险”“项目”“供应商”“时间线”这些对象串成一张关系网。更麻烦的是，答案往往来自多份文档的组合推理，而不是某一个 Chunk 里现成的一句话。

Guide2026/5/7大约 29 分钟

RAG 文档处理与切分策略：从解析、清洗、Chunking 到多模态内容处理

术语约定：本文中 "Chunking" 与“切分”、"Embedding" 与“嵌入”、"Chunk" 与“块” 含义相同，统一使用中文表述以保持可读性。

很多团队第一次搭 RAG 系统时，都会经历一个特别有意思的阶段：买最贵的向量数据库、调最牛的 embedding 模型、上线之后发现答案还是一塌糊涂。

根因往往不在检索环节，而在更上游——文档根本没有被正确解析，切分的时候把表格列拆散了，Chunk 把条件和结论切成两半，页眉页脚被当成正文入了索引。

Guide2026/5/7大约 26 分钟

RAG 知识库文档如何更新：增量更新、版本控制、去重与全量重建

第一个企业知识库 RAG 系统上线后，很多团队都会碰到一个很真实的问题：文档明明更新了，回答还是老样子。

这时候先别急着怪 LLM。更常见的原因是知识库没有同步更新，或者更新链路只做了“写入新内容”，没有处理旧版本、权限、索引一致性这些细节。文档变更频繁之后，问题会更明显：每次都全量重建索引，成本和耗时扛不住；只更新变化部分，又怕漏掉旧块；只插入新向量，不清理旧版本，过期内容还会继续被召回；换了 Embedding 模型，历史数据到底要不要全部重索引，也绕不开。

这些问题背后，其实是 RAG 知识库的动态性、准确性、一致性、可回滚、可观测这几件事没有处理好。

Guide2026/5/7大约 25 分钟

万字详解 RAG 优化：从召回、重排到上下文工程的系统调优

第一次做 RAG 时，很多人的体验都差不多：文档切了，向量库建了，Top-K 也调大了，模型还是一本正经地胡说八道。

更难受的是，问题可能出在文档解析、Chunk 切分、上下文质量等多个环节，而不是单纯的 embedding 或 Top-K 参数。

调一个企业知识库问答时，很容易陷入一个误区：一开始疯狂换 embedding 模型，结果线上错误率没明显下降。把失败样本拆开看才发现，60% 的问题根本不是向量相似度不够，而是 PDF 表格被解析坏了、Chunk 把条件和结论切开了、重排前的候选池里没有正确片段。

RAG 优化的第一条经验是：它本质上是数据、切分、索引、召回、重排、上下文、生成、评估共同组成的系统工程，不是单点调参。

Guide2026/5/7大约 26 分钟

AI 工作流中的 Workflow、Graph 与 Loop：从概念到实现

刚上手 AI 工作流时，很容易有类似的困惑——这不就是传统工作流换了个壳吗？为什么不用 Camunda、Temporal 这些成熟引擎？甚至觉得把几个 Prompt 用 if-else 串起来就算“工作流”了。

但真正上手做项目后，这些想法很快会被现实打脸。LLM 的输出天然不确定，单次生成往往不达标，工具调用随时可能失败，上下文窗口还有硬上限。光“跑一遍就完事”的线性流程不够用，你需要的是一套能动态决策、自动修正、可控收敛的执行机制。

今天这篇文章就来系统梳理 AI 工作流中三个核心概念——Workflow、Graph、Loop，帮你建立从概念到实现的完整认知。本文接近 7300 字，建议收藏。通过本文你会搞懂：

Guide2026/4/13大约 25 分钟