有个做智能客服的团队,花了三个月把 RAG 知识库从向量检索升级到混合检索,再加了一层 Reranker。上线前,工程师在本地测了几十条问题,感觉效果好了不少,于是就推了上线。
一周后,业务方反馈:“有些问题感觉还不如以前准。”
这句话最麻烦的地方,不是“效果变差了”,而是没人知道它到底有没有变差。旧版本质量是什么水平?新版本是哪类问题退步了?业务方说的“不如以前准”,是真退步,还是用户预期变高了?一查才发现,历史质量数据几乎没有。
很多 AI 应用早期都是这样:靠体感上线,靠体感判断好坏,靠体感决定改完之后是不是进步了。
这就像在黑盒里飞行。
