Apache iceberg
简介
Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的,
由 Netflix 开发开源的,于 2018年11月16日进入 Apache 孵化器,是 Netflix 公司数据仓库基础
设计思想
记录表在所有时间的所有文件,和 Delta Lake 或 Apache Hudi 一样,支持 snapshot,其是表在某个时刻的完整文件列表。每一次写操作都会生成一个新的快照。
好处
- 所有的修改都是原子性的;
- 没有耗时的文件系统操作;
- 快照是索引好的,以便加速读取;
- CBO metrics 信息是可靠的;
- 更新支持版本,支持物化视图。