概述RAG 的效果取决于“检索出的内容是否相关且足够”。本文从分块策略、召回参数(topK/阈值/滑窗)、重排序(BM25/融合检索)三方面给出实践建议。分块策略典型分块大小在 `256–512–1024 tokens` 区间,需要结合语料性质与嵌入模型在不同块大小上的表现做 A/B 测试[参考1,2,4,5]。采用递归/语义分块以保留自然断点,适度重叠(如 10–20%)降低语义割裂[参考3,4]。指标度量:基于查询集评估检索的命中率、MRR、nDCG,并观察生成答案的真实性与覆盖度。召回参数`topK`:小样本查询可取 5–10;知识密集型或长文档建议提高到 20–50,并配合重排序压噪。距离阈值:在语义向量空间中设置最小相似度阈值,避免低相关块进入上下文,提升答案可信度。滑窗检索:对长文档采用滑窗+重叠的切片检索,兼顾召回与上下文连续性。重排序与融合语义向量检索 + BM25 融合:先用向量召回,再用 BM25/关键词加权进行重排序,提高事实相关性。生成前的 `rerank`(如 cross-encoder):对 topN 进行细粒度相关性判别,显著提升答案质量(需权衡延迟)。评估与监控建立有标注的查询-答案对,持续评估检索与生成质量;按场景细分指标:事实准确率、覆盖度、引用一致性。在生产中跟踪 P95 延迟与错误率,对块大小与 topK 做自动化调参试验。参考与验证[参考1]知乎:RAG 分块技术与块大小推荐(256/512/1000+ tokens 的取舍):https://zhuanlan.zhihu.com/p/673906072[参考2]知乎:RAG 切块技术总结(不同 embedding 模型在 256/512 tokens 上表现差异):https://zhuanlan.zhihu.com/p/19010809414[参考3]CSDN:RAG 文档分块方法与 TokenSplitter 示例(最大 512 tokens):https://blog.csdn.net/weixin_40906716/article/details/141146358[参考4]教程:RAG 分块问答与分块大小建议(512 tokens 等):https://aieasyuse.tech/tutorials/mastering-rag-chunking-secrets/[参考5]技术博客:Advanced-RAG 分块大小选择(128/256/512/1024 tokens 的评估):https://caixiongjiang.github.io/blog/2024/rag/advanced_rag/关键词校验关键词覆盖分块、召回、重排序与评估,与正文一致。

发表评论 取消回复