文章列表

Tag: # GGUF

基于 llama.cpp 框架介绍非常见整数位量化方案，涵盖 2、3、5、6 位等非标准位数量化技术。详细说明 GGUF 格式转换流程，包括使用 convert.py 将 PyTorch/Safetensors 模型转为 F16 中间格式，阅读全文

基于实践测试，对零一万物官方 Yi-34B 及 Yi-34B-200K 模型的本地部署与基础使用进行客观记录。涵盖 Docker 与裸机两种环境配置、模型文件获取方式、硬件资源需求分析，重点验证模型在默认参数下的文本生成表现，包括指令遵循能阅读全文

零一万物34B大模型本地部署方案详解，针对该模型量化后约24GB显存占用易触发内存溢出的问题，提出基于llama.cpp的CPU与GPU混合推理方案。通过Docker构建NVIDIA PyTorch运行环境，利用gguf格式模型与GPU层卸阅读全文