本地部署大模型指北
距离上次了解这部分已经很久了,目前的生态发生了非常多的变化,主要是发现之前发文章的网站倒闭了,也有必要写一篇新的与时俱进。
先说 LLM 方向,上一次还是 Ollama + OpenWebUI 搭建运行环境,目前的环境下 Ollama 已经跌落神坛,效率不行,伪开源商业化严重,已经是非必要不选择的状态。关于它的罪恶,可以看网友的这篇文章。
Ollama 运行环境的核心其实是 llama.cpp 这个开源项目,所以我们其实是直接跑 llama.cpp 没有中间商赚差价,效率更高,只不过需要懂一些命令行。
当然也有上手难度低的易用版本:
前面俩都是不错的客户端,第三个除了作为 Chat 还可以进行训练,Unsloth 出品值得一试吧,如果想训练的话可以用。
当然,就算直接跑 llama.cpp 也有一些启动器可以方便我们修改配置而不需要手动去写命令。
Web 壳,用图形化的 Web 页面来操作模型和 llama.cpp。内置了很多花里胡哨的功能。
当然,如果不想写启动脚本或者打命令,我还是更推荐使用启动器,本质就是替你写参数,把参数用 GUI 的方式体现出来,自己让 AI 给写个启动脚本也没啥问题。
环境准备
本地运行 LLM 都知道需要显卡,模型的大小和显存直接关联,根据上面的介绍,选择适合自己的模型。
这里以最常用的 N 卡举例,可以安装下 CUDA,先查看驱动支持的版本,然后去下载 CUDA Toolkit,安装完后验证。
# 查看驱动支持的 cuda 版本
nvidia-smi
# 查看 cuda 版本
nvcc -V当然,跑 也不一定需要 CUDA Toolkit,官方的发布页会提供一个类似 CUDA 13.1 DLLs 这样的下载包,会包含相关 dll 依赖,大概率是可以直接跑起来。
下载地址:
https://developer.nvidia.com/cuda-downloads
https://developer.nvidia.com/cuda-toolkit-archive
如果你不写 CUDA C++,不微调编译,那么理论上只装 Runtime 就可以;但是 nvcc 命令可能就用不了了;甚至不需要 Runtime,因为 llama.cpp、PyTorch 这类都会自带运行库。
接下来需要的环境:
Python
不用多说,AI 多少也需要它
PyTorch
深度学习 / 机器学习框架,主要用来构建、训练和部署神经网络模型。
对于我们这种纯跑模型的,只需要知道它可以加速模型推理就可以了。
对于低版本可能还需要 xformers 可以进一步加速,高版本一般不需要了,主要是为了在图像生成方面加速。
uv
py 环境、版本、依赖管理流行工具
modelscope
用来从魔搭下载模型,国内满速,可以配置 MODELSCOPE_CACHE 环境变量来控制下载目录;
如果你 Hugging Face 速度很快,那倒是也不需要。
Node.js
上面的环境作为开发者不难搭建,甚至本来的电脑多多少少就有,准备好后就可以下模型跑了。
GGUF
前置知识:需要先了解量化、MoE、Dense 等概念才能更好的知道自己需要什么格式的模型。
GGUF 是一种文件格式,可以把它理解成:大模型的“打包格式”。 GGUF 全称 GPT-Generated Unified Format。它是以前 GGML / GGMF / GGJT 这些格式路线后面发展出来的,它更统一,也更适合后续扩展。
它可以保存 AI 模型权重、配置信息,以及一些附加元数据的一种格式,主要常见在 本地运行大语言模型 的场景里,让你开箱即用,例如我们常用的 LM Studio、llama.cpp 都是使用 GGUF 加载。
比如一个模型原本可能是 Hugging Face 上的 PyTorch 权重的 safetensors 文件,文件很大、没有进行量化、结构也偏训练框架化。但你可能只是需要量化后的省内存、省显存能跑在个人电脑的模型;那就常常会把模型转换成 GGUF 格式。
你可以把 GGUF 理解成类似这样几个比喻:
- 像压缩包:把模型相关内容装进去
- 像安装包:方便推理程序直接读取
- 像通用容器:里面不只是权重,还有 tokenizer、上下文长度、量化信息等
不过它不等于普通压缩文件,重点是它是为高效推理加载设计的。
所以它很适合“下载下来就跑”的本地模型体验,但是一些大模型官方很少提供 GGUF,多数还是 safetensors;这时候就可以找一下比较热门可信赖的机构发布的 GGUF 文件。
模型选择
实际的显存占用是模型权重、KV cache、上下文长度、运行后端、多模态模块、批大小共同决定。
而 GGUF 文件体积一般就是量化后的模型权重大小,所以一个简单的判断就是模型文件 +2G(低于 8K 上下文)要小于你的显存才能完整的载入的显存中。
如果模型比显存大很多要慎重了,不是跑不起来(放不下的需要 offload 到 CPU),而是 token 速度是无法用的状态。
| 显存 | 比较合适的选择 |
|---|---|
| 8GB | 27B / 35B - A3B 的 2-bit 极限尝试,质量风险较高 |
| 12GB | 27B Q2/Q3,35B-A3B Q2/Q3 短上下文 |
| 16GB | 27B Q3/Q4,35B-A3B Q3/IQ4_XS |
| 24GB | 27B Q4/Q5/Q6,35B-A3B Q4 |
| 32GB | 27B Q8,35B-A3B Q5/Q6 |
以我 16G 显存来说,选择 Q3_K_M、IQ4_XS、Q4_K_M(理论 20G 显存)根据实际情况尝试。
- 12GB 显存:尝试
27B UD-IQ2_M或35B-A3B UD-IQ2_M,上下文要短。 - 16GB 显存:尝试
27B Q3_K_M或35B-A3B UD-IQ3_XXS。 - 24GB 显存:优先看
27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_M。
对于现在热门的 Qwen3.6,我找到的一些不错量化版本:
unsloth/Qwen3.6-35B-A3B-GGUF
对于我 16G 显存来说,选择的 Qwen3.6-35B-A3B-UD-IQ4_XS,需要搭配 offload
mudler/Carnice-Qwen3.6-MoE-35B-A3B-APEX-GGUF
APEX 量化,优先选择,我自己情况选择的 Carnice-Qwen3.6-MoE-35B-A3B-APEX-I-Quality;或者选 I-Balanced 版本。
unsloth/Qwen3.6-27B-GGUF
稠密模型,根据我的内存选择 Qwen3.6-27B-IQ4_XS.gguf / Qwen3.6-27B-Q3_K_M
需要注意:如果下载使用多模态的大模型,一般是需要下载同目录下的 mmproj-BF16 文件(mmproj 文件通常保持全精度,因为视觉编码器对量化比语言模型更敏感,量化后质量下降明显),显卡不支持的情况下换用 F16 吧,要不然多模态可能无法使用。
也有网友反馈以我的这个硬件标准,跑 3.6 的 35B-A3B 量化 Q4_KM 也不错,参数需要先测试出最优参数。
目前的 Qwen3.6 是比较全能的模型,如果有其他特定场景下的需求,可以看看特化模型,对硬件要求要低的多。
具体选择上,可以参考这两个网站,根据你 PC 配置进行建议:
显存计算和热度排名
当然,以上也只是理论参考,实际情况和使用环境的差别影响也很大。
根据之前的 MoE 原理文章,一定要记住,除非是特殊需求,不要使用 MoE 的蒸馏模型,绝大多数训练的真把握不住。
参数选择
4B “智商”的模型已经可以执行一些简单的逻辑了,例如当视觉识别、执行器、判断器。显存大约 3-5G。
9B 的可以拿来做一些文本总结、日常对话、OCR,需要大概 6-8G 显存。
一些特化的翻译模型就是基于 4B/7B 来做的。
27B 以上基本上就属于通用模型了,各方面都比较好了。
WebSearch
为大模型提供网络搜索能力,搜索是很重要的功能,尤其是在 Agent 中,它可以通过搜索文档或者相关知识给你更高质量的输出。
最开始像 Google Bing 这类搜索引擎供应商是提供 api 的,但是后续都关了,现在这条路不要想了。
目前还存活的几类:
- 爬取搜索引擎结果的 SERP(search engine result page) API 的供应商,如 serpAPI、serper、searchAPI 等。
- 自建搜索 API 的,现在也大都和 AI 集成的比较丝滑,EXA、Tavily、Brave、Linkup 等。
- 用爬虫技术发起搜索引擎请求的工具,如 Duckduckgo MCP、orz-mcp 等,适用于反爬虫比较弱的搜索引擎。
- AI 模型自带搜索功能 OpenAI、Anthropic、perplexity 等。
或者你可以使用 SearXNG 来本地搭建一个搜索引擎,它可以同时向 Google、Bing、DuckDuckGo 等近百个独立的搜索引擎发送查询请求,聚合整理出结果,有大规模使用需求的同学可以试试。
这些工具有一定的差异,不过我们关注的还是性价比;
结论就是:首先推荐 exa,因为可以纯免费的体验使用,但是会限流拉黑 IP,不要并发使用(可能 1 qps);
限制少功能多一些选 tavily,每月 1000 次额度,1 qps,不需要绑卡,很良心;
linkup 也可以考虑,同样每月 1000 次额度,qps 会高一些。
特化模型
这一些模型的特点是在一些垂直领域进行特化训练的,所以在一些固定场景是非常强的,并且性能消耗很低,所以如果有固定场景,这一类模型的性价比非常高。
通用翻译
腾讯的 Hy-MT2-1.8B 反馈是不错的;1.8B 量化版本甚至只需要不到 1G 内存. 随便找个 MacMini 都能跑. 直接能搭配使用翻译网页, 游戏 PDF, 电子书啥的都能搞定.
其中 Hy-MT2-30B-A3B 在 DomainMTBench (这是个专门测试特定领域翻译能力的 benchmark, 包含金融, 法律, 医疗, 技术等) 测试中全面超越了 DeepSeek-V4-Pro.
翻译这个领域其实还可以细分,例如对于特点语言,日语轻小说、视觉游戏现在不需要等汉化组,直接上 SakuraLLM 配合 LunaTranslator 可以无缝翻译。
同声传译
看到谷歌最近发布了 Gemini 3.5 Live Translate,支持 70 多种语言的实时语音到语音翻译;具体还需要进一步了解其效果,不过可以预见,以后不同语言的交流应该都不是问题。
编码
目前看到千问有单独的特化模型:Qwen 3 Coder;但是在能跑的情况下,不少人依然还是选择通用模型 3.6,实际效果需要验证。
角色扮演
可以尝试 Gemma 系列的,比较有活人感,例如 Gemma4-31B-it,只不过需要24+ 的显存,也比较容易破限。
说起破限,Mistral 系列(Mistral-small-3.2-24B)也比较容易,并且它有 14B 无限制版本,显存需求更小(12 - 16G),所以不少拿来做微调。
应用推荐
一些你可能用的上的应用:
AnythingLLM
类似 OpenWebUI,不过是 RAG 方向,管理自己的知识库,提供桌面端
LocalAI
提供 docker 部署,除了提供一个 Web 的皮,还具有下载跑模型的能力,并且提供统一的 API。
OpenWebUI
本地 LLM 获取中转站的 Web 皮,如果是简单聊天有点重,docker 镜像要 1G+
ChatBox
客户端应用,如果不喜欢 WebUI 可以尝试,轻量级
我本来是想找一个 OpenWebUI 差不多页面效果但是资源消耗很低的,还没有找到。
其他的一些模型测试工具:
最后一个暴论:以现在某些大模型的价格,要比自己部署便宜的多,不光是机器的成本,单是从电费角度考虑都比我们自己搞便宜太多。真就是算力的尽头是电力?