数据 - 叶斌兵

AI 评估数据集构建与标注流程（2025）

AI 评估数据集构建与标注流程（2025）评估数据集决定了评估的可信度，需要规范采样与标注与质量流程。一、采样与覆盖采样：覆盖主流与长尾场景，控制偏差。分层：按类别与难度分层，提升代表性。二、标注与质检标注规范：统一标签与说明，降低歧义。质检：双人标注与仲裁，提升质量与一致性。三、评估与闭环指标：准

数据科学与AI 2026年02月14日 0 点赞 0 评论 9 浏览

Airbyte 数据集成与增量同步实践（2025）

Airbyte 数据集成与增量同步实践（2025）一、连接器与管道连接器：配置源/目标与认证；选择全量/增量模式。管道：调度与并发与重试策略；失败回退与告警。二、增量与 CDC增量同步：按更新时间或主键推进。CDC：基于日志捕获变更，保障一致性与回放能力。三、观测与治理指标：延迟与积压与错误率；存储

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 1 浏览

Bluetooth 5.4 新特性：PAwR 与加密广播数据（EAD）

概述 Bluetooth 5.4 的 PAwR（带响应的周期广播）与加密广播数据（EAD），说明其在电子价签与电池管理等场景中的优势与限制。

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 1 浏览

CDC 变更数据捕获与异构同步实践（2025）

CDC 变更数据捕获与异构同步实践（2025）CDC 将数据库的变更事件化，支持跨系统的低延迟同步与审计。一、捕获与来源binlog/redo：从数据库日志捕获变更（如 MySQL binlog）。表级变更：配置过滤与白名单，控制事件体量。二、管道与传输事件总线：以 Kafka 等传输与缓冲变更事件

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 5 浏览

数据归档治理（2025）

ClickHouse MergeTree 分区与 TTL/数据归档治理（2025）一、表设计与索引主键与排序键：根据查询模式选择高选择性列；避免宽主键导致写放大。索引：跳表（data skipping）与稀疏索引减少扫描；控制 granularity。二、分区与并行分区：按时间或租户分区，提升删除与

Recovered Channel 1298 2026年02月14日 0 点赞 0 评论 1 浏览

ClickHouse 物化视图刷新与数据一致性（Aggregating 与 TTL 验证）

使用物化视图对明细数据进行预聚合并在目标表启用TTL与后台合并，保证查询性能与数据一致性，提供度量与验证方法。

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 3 浏览

Cloudflare Vectorize 数据导入管线与批量索引

引言Vectorize 提供托管向量索引，适合在边缘构建检索增强应用；批量导入与索引策略可显著影响查询性能与一致性。能力与管线（已验证）数据导入：通过 API 批量插入向量与元数据，支持管理命名空间与集合。来源：Cloudflare Docs（Vectorize）。Workers 协作：在 Work

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 3 浏览

CSV注入防护与数据导出治理（公式转义/长度限制）最佳实践

通过导出前公式转义与长度限制、字段白名单与统一编码，系统性防止CSV注入导致的命令执行与数据泄露风险。

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 2 浏览

DataOps 数据版本化与回滚治理（2025）

DataOps 数据版本化与回滚治理（2025）一、版本与标记版本标记：为数据集/模型/指标建立语义版本。变更记录：记录来源与影响与审计轨迹。二、闸点与发布质量闸点：在采集/加工/发布环节设定校验。回滚预案：失败时快速回退至上一个稳定版本。三、目录与可视化数据目录：集中管理版本与血缘与责任人。看板：

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 2 浏览

dbt 数据变换与测试治理（2025）

dbt 数据变换与测试治理（2025）dbt 将 SQL 变换工程化管理，强调依赖、测试与文档自动化。一、项目与依赖结构：按模型层级组织（staging/mart）；依赖图可视化。版本：对模型变更进行版本化与审计。二、测试与质量测试：唯一性、非空与关系约束测试保障质量。审计：记录每次运行与产物版本，

Recovered Channel 1273 2026年02月14日 0 点赞 0 评论 1 浏览

数据

首页

数据

列表

默认

浏览次数

发布日期

AI 评估数据集构建与标注流程（2025）

Airbyte 数据集成与增量同步实践（2025）

Bluetooth 5.4 新特性：PAwR 与加密广播数据（EAD）

CDC 变更数据捕获与异构同步实践（2025）

数据归档治理（2025）

ClickHouse 物化视图刷新与数据一致性（Aggregating 与 TTL 验证）

Cloudflare Vectorize 数据导入管线与批量索引

CSV注入防护与数据导出治理（公式转义/长度限制）最佳实践

DataOps 数据版本化与回滚治理（2025）

dbt 数据变换与测试治理（2025）

数据 首页 数据

列表 默认 浏览次数 发布日期

数据

首页

数据

列表

默认

浏览次数

发布日期