Lance列存格式介绍
简介
- lance是一种针对ML工作流和数据集优化的列存数据格式;
- 支持posix及云存储(如AWS s3, GCS等);
- 可用于构建搜索引擎和特征库、大规模机器学习训练,以及存储、查询和检查深度嵌套的数据;
特性
lance主要包括如下特性:
- 高性能随机访问: 比parquet格式快100倍;
- 向量搜索: 能在1ms内找到最邻近向量, 及合并OLAP的向量搜索查询;
- 零拷贝, 自动版本管理;
- 微系统集成: 兼容pandas、duckdb、polars和pyarrow等工具;