15.2 大模型本地部署

llama.cpp

llama.cpp 使用 C/C++ 编写,旨在通过最简化的配置在各类硬件上实现大模型推理。llama.cpp 依赖 misc/ggml 提供底层张量计算库,该依赖会在安装 misc/llama-cpp 时自动安装。纯 CPU 环境如需关闭 GPU 加速,可在 misc/ggml 中设置 VULKAN=OFF 选项(而非在 llama-cpp 本身)。

安装

  • 使用 pkg 安装:

# pkg install llama-cpp
  • 使用 Ports 安装:

# cd /usr/ports/misc/llama-cpp/
# make install clean
  • 查看安装说明

# pkg info -D llama-cpp

部署千问大模型

GGUF 是一种文件格式,存储了运行模型所需的信息。llama.cpp 要求模型以该格式存储。

Hugging Face 平台托管了大量适配 llama.cpp 的 GGUF 格式的大模型,用户可直接搜索关键词“llama gguf”。

Qwen 是阿里云开发的大型语言模型家族。假设使用 Qwen/Qwen3-0.6B-GGUF:

$ llama-cli -hf Qwen/Qwen3-0.6B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.5 -c 1024 -n 256 --no-context-shift
参数
功能说明

-hf Qwen/Qwen3-0.6B-GGUF:Q8_0

指定模型来源和量化版本,使用来自 Hugging Face Hub 的模型文件,使用 8-bit 量化权重

--jinja

启用 Jinja 模板解析,可在提示中使用变量

--color

在终端显示彩色输出,便于区分用户输入和模型生成文本

-ngl

指定卸载到 GPU 的层数(n-gpu-layers),数值越大使用 GPU 越多

-fa

启用 Flash Attention,优化注意力计算,可提升推理速度并降低显存占用

-sm row

设置多 GPU 张量分割模式(split mode),row 表示按行分割张量到不同 GPU

--temp

设置采样温度,控制生成文本的随机性

--top-k

限制每次生成 token 时,从概率最高的候选中选择,提高文本多样性

--top-p

核采样策略,只选择累计概率达到一定阈值的 token

--min-p

生成 token 的最小概率阈值,用于过滤低概率 token

--presence-penalty

对重复出现的 token 施加惩罚,减少重复文本

-c

上下文窗口长度,模型在生成时可以记住的历史 token 数量

-n

最大生成 token 数,控制一次生成文本的总长度

--no-context-shift

禁用上下文滑动或移动窗口,保持固定上下文生成文本

详细参数说明参见 Qwen 官方文档中的 llama.cpp 部署指南

上述输出如下:

输入 /exit 或者按 Ctrl + C 退出。再次使用时执行相同命令即可。

模型将缓存到 ~/.cache/huggingface/hub 路径下。

Ollama

Ollama 是运行大型语言模型的工具,主要由 Go 语言和 C 语言编写。

安装

  • 使用 pkg 安装:

  • 使用 Ports 安装:

  • 查看安装说明

服务管理

启用服务并设置开机自启:

立即启动该服务:

部署 DeepSeek-R1

拉取 1.5b 参数的 DeepSeek-R1 模型:

更多大模型参见 library

上述命令输出如下:

参数量越大的模型,体积通常也越大。Ollama 默认存储位置是 ~/.ollama/models

输入 /bye 或者按 Ctrl + D 退出。再次使用时执行相同命令即可。

Claude Code

Claude Code 是一款 AI 编程助手和自动化编程工具,能够读取和理解完整的代码库,编辑文件、运行命令,并与开发工具协作。它适用于终端、IDE、桌面应用和浏览器环境,帮助快速开发功能、修复漏洞和自动处理开发任务。Claude Code 需要付费订阅使用。

Claude Code 的源代码主要由 TypeScript 语言构成,运行在 Bun 运行时上。

安装

  • 使用 pkg 安装:

  • 使用 Ports 安装:

使用 Claude Code

此处设置主题。

Claude Code 需要订阅才能使用,请登录账户:

登录之后:

完成订阅后即可开始使用。连续按两次 Ctrl + C 即可退出该工具。

GitHub Copilot CLI

GitHub Copilot CLI 是 GitHub 的闭源项目。GitHub 提供免费套餐(每月 2000 次代码补全和 50 次聊天请求),超出额度或使用高级功能则需付费订阅。

GitHub Copilot CLI 将 AI 编程助手集成到命令行环境中,用户可以通过自然语言对话编写、调试和理解代码,并与 GitHub 工作流程实现集成。

安装

  • 使用 pkg 安装:

  • 使用 Ports 安装:

使用 GitHub Copilot CLI

在浏览器打开 https://github.com/login/device,输入 Copilot 输出的一次性验证码,在授权后即可使用 Copilot。

GitHub Copilot CLI 主界面

连续按两次 Ctrl + C 即可退出该工具。

最后更新于