数据

CDC 变更数据捕获与异构同步实践(2025)

CDC 变更数据捕获与异构同步实践(2025)CDC 将数据库的变更事件化,支持跨系统的低延迟同步与审计。一、捕获与来源binlog/redo:从数据库日志捕获变更(如 MySQL binlog)。表级变更:配置过滤与白名单,控制事件体量。二、管道与传输事件总线:以 Kafka 等传输与缓冲变更事件

数据建模与规范化与反规范化权衡(2025)

数据建模与规范化与反规范化权衡(2025)数据建模需要面向场景选择合适范式,并以工程方法实现性能与演进的平衡。一、规范化与范式范式:避免更新异常与冗余,提升一致性。关联与约束:通过外键与约束保障数据质量。二、反规范化与冗余冗余视图:为查询热点构建反规范化视图提升读取性能。写入权衡:评估写入复杂度与维

AI 评估数据集构建与标注流程(2025)

AI 评估数据集构建与标注流程(2025)评估数据集决定了评估的可信度,需要规范采样与标注与质量流程。一、采样与覆盖采样:覆盖主流与长尾场景,控制偏差。分层:按类别与难度分层,提升代表性。二、标注与质检标注规范:统一标签与说明,降低歧义。质检:双人标注与仲裁,提升质量与一致性。三、评估与闭环指标:准