压缩

压缩与模式演进治理(2025)

Kafka Connect S3 Sink 分区/压缩与模式演进治理(2025)一、分区与命名分区:按时间/主题/分区生成层级;支持查询按需加载。命名:统一文件名与路径;避免碎片与小文件。二、压缩与格式压缩:使用 `gzip/zstd`;平衡 CPU 与存储成本。格式:Avro/Parquet/JS

压缩与小文件治理(2025)

Apache Iceberg 快照/压缩与小文件治理(2025)一、快照与元数据快照(快照):每次写入生成 `Snapshot`,保留历史版本与时间旅行。Manifest:维护数据/删除文件列表;合并与裁剪减少元数据开销(Manifest)。二、Compaction 与小文件小文件:批量写与分桶策略