# Parquet 与 ORC 存储格式与压缩优化(2025) Parquet 与 ORC 是主流列式存储格式,广泛用于湖仓与离线分析场景。 ## 一、格式与编码 - 列式存储:按列组织数据,提升扫描与压缩效率。 - 编码:字典/Run-Length/位图等编码降低存储与 IO。 ## 二、压缩与性能 - 压缩算法:ZSTD/Snappy/Gzip 按场景选型,权衡压缩比与速度。 - 列裁剪与谓词下推:只读相关列与行,降低数据量。 ## 三、元数据与分区 - 统计信息:使用列级统计加速查询与跳过无关数据。 - 分区与文件大小:合理分区与目标文件大小,避免小文件风暴。 ## 四、兼容与生态 - 引擎支持:Spark/Flink/Trino 对 Parquet/ORC 的适配与优化。 - Schema 演进:增删改字段的兼容策略与风险控制。 ## 注意事项 - 关键词、分类与描述与正文一致;术语与能力为通用与可验证。 - 以查询模式与数据分布为依据优化压缩与编码。

发表评论 取消回复