Llamafile
简介
llamafile是由天才程序员Justine Tunney开发的一种大模型分发运行方式;
llamafile将大模型和可执行环境封装到单一文件中,同时支持该单一文件可在不同操作系统跨平台运行;
支持平台包括:Windows, macOS, Linux, OpenBSD, FreeBSD, and NetBSD;
跨 CPU 微架构运行:llamafiles 可以在多种 CPU 微架构上运行,支持新的 Intel 系统使用现代 CPU 特性,同时兼容旧计算机。
跨 CPU 架构运行:llamafiles 可以在 AMD64 和 ARM64 等多种 CPU 架构上运行,兼容 Win32 和大多数 UNIX shell。
跨操作系统运行:llamafiles 可以在 MacOS、Windows、Linux、FreeBSD、OpenBSD和 NetBSD 六种操作系统上运行。
权重嵌入:LLM 的权重可以嵌入到 llamafile 中,使得未压缩的权重可以直接映射到内存中,类似于自解压缩的存档。
原理
- llamafile通过Cosmopolitan Libc和llama.cpp是实现
用法
使用llamafile运行
|
|
封装llamafile文件
需要文件:
llamafile可执行文件: https://github.com/Mozilla-Ocho/llamafile/releases
gguf格式大模型:https://modelscope.cn/models/Xorbits/Qwen-7B-Chat-GGUF/files
参数文件.args
|
|