敏感词过滤是内容安全的核心环节。无论是社交媒体、电商平台、在线游戏,还是如今的 AI 应用,都需要对输入和生成的内容进行实时过滤,防止色情、暴力、仇恨言论等违规信息传播。
从技术角度看,敏感词过滤本质上是多模式字符串匹配问题:在一段文本中同时查找多个关键词。
这篇文章接近 2 万字,我会从算法演进开始讲起,还会分享一些生产经验例如对抗变形词、高并发优化、词库管理。
核心结论:
| 算法 | 适用场景 | 特点 |
|---|---|---|
| Trie 树 | 词库规模较小(< 1 万) | 实现简单,易于理解 |
| AC 自动机 | 高吞吐量场景 | 单次扫描匹配所有词,性能最优 |
| 双数组 Trie(DAT) | 大规模词库(> 1 万) | 内存占用低,构建成本高 |

