Apache iceberg

Apache iceberg

简介

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的,

由 Netflix 开发开源的,于 2018年11月16日进入 Apache 孵化器,是 Netflix 公司数据仓库基础

设计思想

记录表在所有时间的所有文件,和 Delta Lake 或 Apache Hudi 一样,支持 snapshot,其是表在某个时刻的完整文件列表。每一次写操作都会生成一个新的快照。

好处

  • 所有的修改都是原子性的;
  • 没有耗时的文件系统操作;
  • 快照是索引好的,以便加速读取;
  • CBO metrics 信息是可靠的;
  • 更新支持版本,支持物化视图。
updatedupdated2024-11-232024-11-23