Delta Lake

Delta Lake

简介

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。2019年4月24日开源。

特性

  • 支持 ACID 事务
  • 模式管理(Schema management)
  • 可扩展元数据处理
  • 数据版本
  • 统一流和批处理 Sink
  • 记录更新和删除
  • 数据异常处理
  • Apache Spark API兼容

架构

image-20190522121338532

updatedupdated2024-08-252024-08-25