检索评测方法 Recall MAP nDCG 实战

YBB 3 阅读 0 评论 0 点赞

评测集构建覆盖查询类型：事实类、程序类、概念解释、步骤/流程标注规范：为每个查询标注 1–N 个相关片段并记录权重/等级负例采样：同域近义与远域随机结合以测试鲁棒性指标与计算Recall@k：检索前 k 是否覆盖至少一个相关片段MAP：平均精度，考虑多个相关片段的排序质量nDCG：基于等级的归一化折损累积增益，关注高等级片段排序位置技术参数（实践建议）评测集规模：≥100 条查询；上线前建议 ≥300 条抽样策略：按主题与难度分层抽样，避免单一分布偏差统计口径：记录均值与 P95，避免仅用均值掩盖长尾问题流程固定语料与查询集，生成候选与排序结果计算 Recall/MAP/nDCG 并绘制随参数变化曲线选择拐点参数并在生产中 A/B 验证误差分析与数据迭代总结以规范的评测集与多指标评价为基础，能稳定指引检索与重排的参数选择与演进。