评估 - 叶斌兵

RAG评估指标：Faithfulness与Answer Relevance

通过忠实度与答案相关性指标评估 RAG 系统质量，结合上下文覆盖与召回构建可运行的评测体系。

数据科学与AI 2026年02月13日 0 点赞 0 评论 14 浏览

前端可访问性与可用性评估（ARIA、聚焦管理与验证）

使用ARIA语义与焦点管理实现键盘可达与读屏友好，结合评估工具与实测指标进行验证，提升交互可用性与一致性。

软件 2026年02月13日 0 点赞 0 评论 16 浏览

AI 安全与评估体系（2025）

AI 安全与评估体系（2025）AI 系统的安全与质量需要制度化治理。本文从指标、攻防与审计三个方面展开。一、评估指标准确性与一致性：针对任务定义标注集与评分标准。幻觉控制：回答需可追溯来源；无法回答时明确退路。鲁棒性：对对抗样本与异常输入进行压力评估。二、数据泄露与防护最小权限：隔离敏感数据，严格

声学与音频 2026年02月20日 0 点赞 0 评论 22 浏览

AI 评估数据集构建与标注流程（2025）

AI 评估数据集构建与标注流程（2025）评估数据集决定了评估的可信度，需要规范采样与标注与质量流程。一、采样与覆盖采样：覆盖主流与长尾场景，控制偏差。分层：按类别与难度分层，提升代表性。二、标注与质检标注规范：统一标签与说明，降低歧义。质检：双人标注与仲裁，提升质量与一致性。三、评估与闭环指标：准

C/C++ 2026年02月20日 0 点赞 0 评论 29 浏览

Feature Flags 服务架构（评估、分群、回滚与审计）

构建可扩展的 Feature Flags 服务，支持规则评估、用户分群、快速回滚与审计治理，并提供验证方法。

版本控制 2026年02月20日 0 点赞 0 评论 29 浏览

评估

首页

评估

列表

默认

浏览次数

发布日期

RAG评估指标：Faithfulness与Answer Relevance

前端可访问性与可用性评估（ARIA、聚焦管理与验证）

AI 安全与评估体系（2025）

AI 评估数据集构建与标注流程（2025）

Feature Flags 服务架构（评估、分群、回滚与审计）

评估 首页 评估

列表 默认 浏览次数 发布日期

RAG评估指标：Faithfulness与Answer Relevance

前端可访问性与可用性评估（ARIA、聚焦管理与验证）

AI 安全与评估体系（2025）

AI 评估数据集构建与标注流程（2025）

Feature Flags 服务架构（评估、分群、回滚与审计）

评估

首页

评估

列表

默认

浏览次数

发布日期