评测集构建覆盖查询类型:事实类、程序类、概念解释、步骤/流程标注规范:为每个查询标注 1–N 个相关片段并记录权重/等级负例采样:同域近义与远域随机结合以测试鲁棒性指标与计算Recall@k:检索前 k 是否覆盖至少一个相关片段MAP:平均精度,考虑多个相关片段的排序质量nDCG:基于等级的归一化折损累积增益,关注高等级片段排序位置技术参数(实践建议)评测集规模:≥100 条查询;上线前建议 ≥300 条抽样策略:按主题与难度分层抽样,避免单一分布偏差统计口径:记录均值与 P95,避免仅用均值掩盖长尾问题流程固定语料与查询集,生成候选与排序结果计算 Recall/MAP/nDCG 并绘制随参数变化曲线选择拐点参数并在生产中 A/B 验证误差分析与数据迭代总结以规范的评测集与多指标评价为基础,能稳定指引检索与重排的参数选择与演进。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部