Lance列存格式介绍

Lance列存格式介绍

简介

  • lance是一种针对ML工作流和数据集优化的列存数据格式;
  • 支持posix及云存储(如AWS s3, GCS等);
  • 可用于构建搜索引擎和特征库、大规模机器学习训练,以及存储、查询和检查深度嵌套的数据;

特性

lance主要包括如下特性:

  • 高性能随机访问: 比parquet格式快100倍;
  • 向量搜索: 能在1ms内找到最邻近向量, 及合并OLAP的向量搜索查询;
  • 零拷贝, 自动版本管理;
  • 微系统集成: 兼容pandas、duckdb、polars和pyarrow等工具;

参考

  1. https://github.com/lancedb/lance
  2. https://lancedb.github.io/lance/format.html
updatedupdated2024-08-252024-08-25