AI 评估数据集构建与标注流程(2025)评估数据集决定了评估的可信度,需要规范采样与标注与质量流程。一、采样与覆盖采样:覆盖主流与长尾场景,控制偏差。分层:按类别与难度分层,提升代表性。二、标注与质检标注规范:统一标签与说明,降低歧义。质检:双人标注与仲裁,提升质量与一致性。三、评估与闭环指标:准确性与一致性与引用正确率(对 RAG)等。闭环:将评估结果用于数据与提示与检索优化。注意事项关键词、分类与描述与正文一致;流程与方法为通用与可验证实践。保留评估集版本与变更记录,支持对比与回溯。
微信公众账号
微信扫一扫加关注
发表评论 取消回复