压缩

压缩与小文件治理(2025)

Apache Iceberg 快照/压缩与小文件治理(2025)一、快照与元数据快照(快照):每次写入生成 `Snapshot`,保留历史版本与时间旅行。Manifest:维护数据/删除文件列表;合并与裁剪减少元数据开销(Manifest)。二、Compaction 与小文件小文件:批量写与分桶策略

Parquet 与 ORC 存储格式与压缩优化(2025)

Parquet 与 ORC 存储格式与压缩优化(2025)Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。一、格式与编码列式存储:按列组织数据,提升扫描与压缩效率。编码:字典/Run-Length/位图等编码降低存储与 IO。二、压缩与性能压缩算法:ZSTD/Snappy