Delta Lake
简介
Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。2019年4月24日开源。
特性
- 支持 ACID 事务
- 模式管理(Schema management)
- 可扩展元数据处理
- 数据版本
- 统一流和批处理 Sink
- 记录更新和删除
- 数据异常处理
- Apache Spark API兼容