苏洋博客
网站首页
工作生活
编程记录
知识地图
文章存档
关于苏洋
关于本站
GitHub
折腾笔记
联系作者
文章列表
Tag: # llama.cpp
从零到一使用 Ollama、Dify 和 Docker 构建 Llama 3.1 模型服务
2024年07月28日
Dify
,
Ollama
,
Llama
,
llama.cpp
,
Docker
,
Linux
围绕 Ollama 官方未直接支持的模型及新版 llama.cpp 转换后的模型运行需求,详细阐述了基于 Docker 环境完成 Llama 3.1 模型服务的完整链路。内容涵盖通过 ModelScope 获取模型文件、拉取指定版本 Oll
阅读全文
CPU 混合推理,非常见大模型量化方案:“二三五六” 位量化
2023年12月12日
GGUF
,
Yi-Model
,
llama.cpp
,
Python
,
Docker
,
Linux
基于 llama.cpp 框架介绍非常见整数位量化方案,涵盖 2、3、5、6 位等非标准位数量化技术。详细说明 GGUF 格式转换流程,包括使用 convert.py 将 PyTorch/Safetensors 模型转为 F16 中间格式,
阅读全文
零一万物模型折腾笔记:官方 Yi-34B 模型基础使用
2023年12月10日
GGUF
,
Yi-Model
,
llama.cpp
,
Python
,
Docker
,
Linux
基于实践测试,对零一万物官方 Yi-34B 及 Yi-34B-200K 模型的本地部署与基础使用进行客观记录。涵盖 Docker 与裸机两种环境配置、模型文件获取方式、硬件资源需求分析,重点验证模型在默认参数下的文本生成表现,包括指令遵循能
阅读全文
本地运行“李开复”的零一万物 34B 大模型
2023年11月26日
GGUF
,
Yi-Model
,
llama.cpp
,
Python
,
Docker
,
Linux
零一万物34B大模型本地部署方案详解,针对该模型量化后约24GB显存占用易触发内存溢出的问题,提出基于llama.cpp的CPU与GPU混合推理方案。通过Docker构建NVIDIA PyTorch运行环境,利用gguf格式模型与GPU层卸
阅读全文
构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型
2023年07月23日
GGML
,
llama.cpp
,
LLaMA2
,
LLaMA
,
Python
,
Docker
,
Linux
基于GGML机器学习张量库,介绍将Meta LLaMA2中文大模型转换为可在CPU运行的量化格式的完整流程。内容涵盖使用Docker工具镜像完成模型格式转换、GGML量化压缩(将26GB模型精简至3.
阅读全文