Lance列存格式介绍
滴水穿石
236
1 分钟
- lance是一种针对ML工作流和数据集优化的列存数据格式;
- 支持posix及云存储(如AWS s3, GCS等);
- 可用于构建搜索引擎和特征库、大规模机器学习训练,以及存储、查询和检查深度嵌套的数据;
lance主要包括如下特性:
- 高性能随机访问: 比parquet格式快100倍;
- 向量搜索: 能在1ms内找到最邻近向量, 及合并OLAP的向量搜索查询;
- 零拷贝, 自动版本管理;
- 微系统集成: 兼容pandas、duckdb、polars和pyarrow等工具;
- https://github.com/lancedb/lance
- https://lancedb.github.io/lance/format.html
#{ isset image }
#{image}
#{ end }
#{title}
#{ isset description }
#{description}
#{ end }
#{content}
#{ isset categories }
#{ end }
#{ isset tags }
#{ end }