---
title: Parquet与ORC:列式存储与压缩编码
keywords:
- Parquet
- ORC
- 列存储
- 字典编码
- 压缩
- 谓词下推
description: 比较两大列式存储格式在编码、压缩与查询裁剪上的差异,指导数据湖与分析场景选型。
categories:
- 文章资讯
- 编程技术
---
Parquet与ORC:列式存储与压缩编码
概览
列式存储在分析场景具备显著优势。Parquet 与 ORC 在编码与元数据上有差异,影响压缩与查询裁剪效果。
技术参数(已验证)
- 编码:字典/位图/RLE 等编码降低存储;列式压缩提升 IO 效率。
- 裁剪:谓词下推依赖统计与页/块元数据;分区/排序进一步提升裁剪。
- 生态:Parquet 在多引擎中广泛支持;ORC 在 Hadoop 生态中深度集成。
实战清单
- 按字段分布选择编码与压缩;对高选择性字段优化字典与索引。
- 结合分区/聚簇与排序键设计物理布局。

发表评论 取消回复