架构与中间件

Apache Iceberg 快照与维护策略(2025)

Apache Iceberg 快照与维护策略(2025)Iceberg 通过快照与元数据表管理数据版本,需定期维护以保障性能与成本。一、快照与过期快照过期:清理无用快照与孤儿文件,控制存储。时间旅行:在保留期内支持审计与回溯。二、文件维护重写数据文件:合并小文件,提升扫描效率。压缩与布局:优化数据页

Apache Hudi 增量与流批一体实践(2025)

Apache Hudi 增量与流批一体实践(2025)Hudi 提供 Copy-On-Write(COW)与 Merge-On-Read(MOR)两种存储方式支持增量与近实时查询。一、写入与更新Upsert:按主键增量更新,保证幂等与一致性。批量写入:控制批大小与并发,避免小文件风暴。二、存储与查询