Apache Iceberg 快照/压缩与小文件治理(2025)一、快照与元数据快照(快照):每次写入生成 `Snapshot`,保留历史版本与时间旅行。Manifest:维护数据/删除文件列表;合并与裁剪减少元数据开销(Manifest)。二、Compaction 与小文件小文件:批量写与分桶策略降低小文件数量(小文件)。Compaction:定期合并数据/删除文件,优化读取与缓存;控制作业并发与资源(Compaction)。布局:按分区与排序字段优化数据布局,提升扫描效率。三、删除与更新删除:软删除与位置删除(pos-delete);及时合并避免查询放大。更新:对变更频繁的表采用合并策略,减少碎片。四、观测与维护指标:文件数、Manifest 大小、查询延迟、压缩耗时。维护:版本保留与快照清理;元数据膨胀预警。安全:最小权限访问元数据与对象存储;审计变更。注意事项关键词(Iceberg、快照、Compaction、小文件、Manifest)与正文一致。分类为“数据/湖仓/Iceberg”,不超过三级。参数需在容量评估与查询基线上回归验证。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部