FreeBSD 中文社区 2025 第二季度问卷调查
FreeBSD 中文社区(CFC)
VitePress 镜像站QQ 群 787969044视频教程Ⅰ视频教程Ⅱ
  • FreeBSD 从入门到追忆
  • 中文期刊
  • 状态报告
  • 发行说明
  • 手册
  • 网络文章集锦
  • 笔记本支持报告
  • Port 开发者手册
  • 架构手册
  • 开发者手册
  • 中文 man 手册
  • 文章
  • 书籍
  • FreeBSD 中文期刊
  • 编辑日志
  • 2025-123 下游项目
    • FreeBSD 发布工程:新主管上任
    • GhostBSD:从易用到挣扎与重生
    • BSD Now 与将来
    • 字符设备驱动教程(第三部分)
    • 学会走路——连接 GPIO 系统
    • FreeBSD 中对 SYN 段的处理
    • FreeBSD 2024 年秋季峰会
  • 2024-1112 虚拟化
    • 字符设备驱动程序教程(第二部分)
    • 面向 Linux 和 Windows 用户的 bhyve
    • Xen 与 FreeBSD
    • Wifibox:一种嵌入式虚拟化无线路由器
    • 嵌入式 FreeBSD:Fabric——起步阶段
    • DGP:一种新的数据包控制方法
    • 会议报告:我在都柏林的 EuroBSDCon 体验
  • 2024-0910 内核开发
    • 字符设备驱动程序教程
    • VPP 移植到了 FreeBSD:基础用法
    • 利用 Kyua 的 Jail 功能提升 FreeBSD 测试套件的并行效率
    • FreeBSD 上的 Valgrind
    • 嵌入式 FreeBSD:探索 bhyve
    • TCP/IP 历险记:FreeBSD TCP 协议栈中的 Pacing
    • 实用软件:实现无纸化(Paperless)
  • 2024-0708 存储与文件系统
    • FreeBSD 中的 NVMe-oF
    • FreeBSD iSCSI 入门
    • 使用 ZFS 原生加密保护数据
    • 嵌入式 FreeBSD:打造自己的镜像
    • TCP LRO 简介
    • 基于 Samba 的时间机器备份
  • 2024-0506 配置管理对决
    • 基本系统中的 mfsBSD
    • rdist
    • Hashicorp Vault
    • 在 GitHub 上向 FreeBSD 提交 PR
    • 悼念 Mike Karels
    • 2024 年 5-6 月来信
    • 嵌入式 FreeBSD 面包板
    • TCP/IP 历险记:TCP BBLog
    • 实用软件:开发定制 Ansible 模块
  • 2024-0304 开发工作流与集成
    • FreeBSD 内核开发工作流程
    • FreeBSD 与 KDE 持续集成(CI)
    • 更现代的内核调试工具
    • 从零开始的 ZFS 镜像及 makefs -t zfs
    • 提升 Git 使用体验
  • 2024-0102 网络(十周年)
    • FreeBSD 中的 RACK 栈和替代 TCP 栈
    • FreeBSD 14 中有关 TCP 的更新
    • if_ovpn 还是 OpenVPN
    • SR-IOV 已成为 FreeBSD 的重要功能
    • FreeBSD 接口 API(IfAPI)
    • BATMAN:更优的可移动热点网络方式
    • 配置自己的 VPN——基于 FreeBSD、Wireguard、IPv6 和广告拦截
    • 实用软件:使用 Zabbix 监控主机
  • 2023-1112 FreeBSD 14.0
    • LinuxBoot:从 Linux 启动 FreeBSD
    • FreeBSD 容器镜像
    • 现在用 Webhook 触发我
    • 新的 Ports 提交者:oel Bodenmann (jbo@freebsd.org)
  • 2023-0910 Port 与软件包
    • 回忆录:与 Warner Losh(@imp)的访谈
    • 在你自己的仓库中定制 Poudriere 源
    • Wazuh 和 MITRE Caldera 在 FreeBSD Jail 中的使用
    • PEP 517
    • CCCamp 2023 旅行报告
  • 2023-0708 容器与云
    • 在 Firecracker 上的 FreeBSD
    • 使用 pot 和 nomad 管理 Jail
    • 会议报告:C 与 BSD 正如拉丁语与我们——一位神学家的旅程
    • 抒怀之旅:与 Doug Rabson 的访谈
    • 基于 Jail 的广告拦截教程
    • 我们收到的来信
  • 2023-0506 FreeBSD 三十周年纪念特刊
    • CheriBSD 近十多年的历程
    • AArch64:成为 FreeBSD 新的一级架构
    • 岁月如梭:我个人的时间线
    • 安装 FreeBSD 1.0:回顾 30 年前
    • ZFS 是如何进入 FreeBSD 的呢?
    • 我不是来自约克郡的,我保证!
    • 回忆录:采访 David Greenman Lawrence
    • FreeBSD 和早期的 Unix 社区
    • 早期的 FreeBSD 移植
    • FreeBSD 30 周年:成功的秘诀
    • FreeBSD 在日本:回忆之旅与今日之实
  • 2023-0304 嵌入式
    • CheriBSD port 和软件包
    • 让我们来试试 ChatGPT
    • GPU 直通
  • 2023-0102 构建 FreEBSD Web 服务器
    • ZFS 的原子 I/O 与 PostgreSQL
    • 虚拟实验室——BSD 编程研讨会
    • ZFS 简介
    • 会议报告:落基山庆祝女性计算机科学家
    • 进行中的工作/征求反馈:数据包批处理
    • 基金会与 FreeBSD 桌面
  • 2022-1112 可观测性和衡量标准
    • 在 FreeBSD 的 DDB 内核调试器中编写自定义命令
    • DTrace:老式跟踪系统的新扩展
    • 基于证书的 Icinga 监控
    • 活动监控脚本(activitymonitor.sh)
    • 实用 IPv6(第四部分)
    • EuroBSDCon 会议报道
    • 实用 Port:Prometheus 的安装与配置
    • 书评:《用火解决问题:管理老化的计算机系统(并为现代系统保驾护航)》Kill It with Fire: Manage Aging Computer Systems (and Future Proof Modern Ones)
  • 2022-0910 安全性
    • CARP 简介
    • 重构内核加密服务框架
    • PAM 小窍门
    • SSH 小窍门
    • 实用 IPv6(第三部分)
    • 书评:Understanding Software Dynamics(深入理解软件性能——一种动态视角)—— Richard L. Sites 著
    • 访谈:保障 FreeBSD 安全性
    • MCH 2022 会议报告
  • 2022-0708 科研、系统与 FreeBSD
    • 在 FreeBSD 上构建 Loom 框架
    • 教授本科生 Unix 课程
    • FreeBSD 入门研讨会
    • 实用 IPv6(第二部分)
    • 在 2022 年及以后推广 FreeBSD
    • 进行中的工作/征求反馈:Socket 缓冲区
    • FreeBSD 开发者峰会报告
    • 支持 Electromagnetic Field 2022
  • 2022-0506 灾难恢复
    • 使用 FreeBSD 构建高弹性的私有云
    • LLDB 14 —— FreeBSD 新调试器
    • 实用 IPv6(第一部分)
    • 利用 netdump(4) 进行事后内核调试
    • 进行中的工作/征求反馈:FreeBSD 启动性能
    • 实用 Port:在 OpenZFS 上设置 NFSv4 文件服务器
  • 2022-0304 ARM64 是一级架构
    • FreeBSD/ARM64 上的数据科学
    • Pinebook Pro 上的 FreeBSD
    • 嵌入式控制器的 ACPI 支持
    • 进行中的工作/征求反馈:Lumina 桌面征集开发人员
    • 实用 Port:如何设置 Apple 时间机器
  • 2022-0102 软件与系统管理
    • 为 FreeBSD Ports 做贡献
    • 使用 Git 贡献到 FreeBSD Ports
    • CBSD:第一部分——生产环境
    • 将 OpenBSD 的 pf syncookie 代码移植到 FreeBSD 的 pf
    • 进行中的工作/征求反馈:mkjail
    • 《编程智慧:编程鬼才的经验和思考》(The Kollected Kode Vicious)书评
    • 会议报告:EuroBSDCon 2021 我的第一次 EuroBSDCon:一位新组织者的视角
  • 2021-1112 存储
    • 开放通道 SSD
    • 构建 FreeBSD 社区
    • 与完美操作系统同行 27 年
    • 进行中的工作/征求反馈:OccamBSD
    • 通过 iSCSI 导入 ZFS ZIL——不要在工作中这样做——就像我做的那样
  • 2021-0910 FreeBSD 开发
    • FreeBSD 代码审查与 git-arc
    • 如何为 FreeBSD 实现简单的 USB 驱动程序
    • 内核开发技巧
    • 程序员编程杂谈
  • 2021-0708 桌面/无线网
    • 通往 FreeBSD 桌面的直线路径
    • FreeBSD 13 中的人机接口设备 (HID) 支持
    • Panfrost 驱动程序
    • 用 Git 更新 FreeBSD
    • FreeBSD 的新面孔
    • 想给你的桌面加点佐料?
  • 2021-0506 安全
    • 七种提升新安装 FreeBSD 安全性的方法
    • copyinout 框架
    • 使用 TLS 改善 NFS 安全性
    • Capsicum 案例研究:Got
    • 对 Jail 进行安全扫描
  • 2021-0304 FreeBSD 13.0
    • 展望未来
    • FreeBSD 13.0 工具链
    • FreeBSD 13.0 中有新加载器吗?
    • TCP Cubic 准备起飞
    • OpenZFS 中的 Zstandard 压缩
    • 会议报告:FreeBSD 供应商峰会
    • Git 不够吗?
  • 2021-0102 案例研究
    • Tarsnap 的 FreeBSD 集群
    • BALLY WULFF
    • Netflix Open Connect
    • FreeBSD 的新面孔
    • 写作学者的 FreeBSD
    • 在世界之巅
  • 2020-1112 工作流/持续集成(CI)
    • FreeBSD Git 快速入门
    • 使用 syzkaller 进行内核 Fuzzing
    • Mastering Vim Quickly 书评
    • 线上会议实用技巧
    • 在控制台上进行网络监控
  • 2020-0910 贡献与入门
    • 采访:Warner Losh,第 2 部分
    • 代码审查
    • 撰写良好的提交消息
    • 如何在不是程序员的情况下做出贡献——成为 FreeBSD 译者
    • 如何成为文档提交者
    • 谷歌编程之夏
    • 为 FreeBSD 期刊撰写文章
    • 你为什么使用 FreeBSD
    • FreeBSD 的新面孔
  • 2020-0708 基准测试/调优
    • FreeBSD Friday
    • 采访:Warner Losh,第 1 部分
    • 构建和运行开源社区
    • 在 FreeBSD 上轻松搭建我的世界(Minecraft)服务器
    • FreeBSD 的新面孔
  • 2020-0506 网络性能
    • 内核中的 TLS 卸载
    • 访谈:Michael W Lucas
    • FreeBSD 桌面发行版
    • 使用 Poudriere 进行 Port 批量管理
    • FreeBSD 的新面孔
由 GitBook 提供支持
LogoLogo

FreeBSD 中文社区(CFC) 2025

在本页
  • 主机
  • 发现服务
  • 连接到 I/O 控制器
  • 通过发现连接
  • 断开连接
  • 重新连接
  • 控制器
  • 结论
在GitHub上编辑
导出为 PDF
  1. 2024-0708 存储与文件系统

FreeBSD 中的 NVMe-oF

上一页实用软件:实现无纸化(Paperless)下一页FreeBSD iSCSI 入门

最后更新于1个月前

  • 原文链接:

  • 作者:John Baldwin

NVM Express (NVMe) 是一种新兴的非易失性存储设备(如固态硬盘)访问标准。

NVMe 最初是为了通过 PCIe 访问非易失性内存设备而定义的。它包括用于 PCIe 控制器设备的寄存器定义、存储在主内存中的命令提交和完成队列的布局与结构,以及一组命令。

NVMe 基本规范定义了管理员命令集,用于与每个控制器关联的单个管理员提交和完成队列对进行操作。管理员命令不处理 I/O 请求,而是用于创建 I/O 队列、获取辅助数据(如错误日志)、格式化存储设备等。NVMe 中的存储设备称为命名空间,特定命名空间的命令包括命名空间 ID。基本规范还定义了 NVM 命令集,用于对面向块的命名空间执行 I/O 请求。该规范设计为可扩展,支持后续的扩展,包括额外的 I/O 命令集(例如,针对键值存储的 I/O 命令集)。NVMe 控制器及其附加的命名空间一起被称为 NVM 子系统。

NVMe-oF(NVMe over Fabrics) 扩展了原始规范,使其能够通过网络传输(而非 PCIe)访问 NVM 子系统,这类似于使用 iSCSI 访问远程块存储设备作为 SCSI LUN。NVMe-oF 支持多种传输层,包括 FibreChannel、RDMA(通过 iWARP 和 ROCE)以及 TCP。为了处理这些不同的传输,Fabrics 包括了对基本 NVMe 规范的传输无关扩展,以及传输特定的绑定。

Fabrics 定义了一种新的 capsule 抽象,用于支持 NVMe 命令和 completion。每个 capsule 包含一个 NVMe 命令或 completion。此外,capsule 可能与数据缓冲区相关联。为了支持数据传输,NVMe 命令中现有的 PRP 条目被单个 NVMe SGL 条目替代。Fabrics 还将用于 PCIe 控制器的共享内存队列替换为逻辑完成和提交队列。与 PCIe I/O 队列不同,Fabrics 队列总是显式地与每个提交队列配对,后者与一个专用的完成队列相连。capsule 和数据缓冲区如何在队列对上传输和接收是传输特定的,但从抽象的角度来看,命令 capsule 在提交队列上传输,completion 则在完成队列上传输。

Fabrics 主机创建一个管理员队列对和一个/多个 I/O 队列对,连接到控制器。完整的队列对集称为关联。单个关联可以包含多个传输特定的连接。例如,TCP 传输为每个队列对使用专用连接,因此一个活动的 TCP 关联至少需要两个 TCP 连接。

除了提供对命名空间访问的 I/O 控制器外,Fabrics 还添加了一种发现控制器类型。发现控制器有了一个新的发现日志页面,用于 Fabrics NVM 子系统中可用的控制器集。日志页面可能包含一个或多个 I/O 控制器、指向其他子系统中发现控制器的引用。如果控制器可以通过多个传输访问,则日志页面可能包含该控制器的多个条目。每个日志页面条目包含控制器类型(I/O 或发现)以及传输类型和传输特定地址。对于 TCP 传输,地址包括 IP 地址和 TCP 端口号。

通过 NVMe 合格名称(NQN)标识 Fabrics 主机和控制器。NQN 是个 ASCII 字符串,应以“nqn.YYYY-MM.reverse-domain”开头,后跟可选后缀。名称的 reverse-domain 部分应该是一个有效的 DNS 名称的逆序,YYYY 和 MM 字段应该指定为:由使用该前缀的组织,持有 DNS 域名的有效年份和月份。规范定义了一个固定的子系统 NQN 用于发现控制器,并且定义了从 UUID 构建 NQN 的方案。在建立关联时,必须指定主机和子系统(控制器)的 NQN。

FreeBSD 15 支持通过主机内核驱动程序访问远程命名空间,以及支持将本地存储设备导出为命名空间到远程主机。Fabrics 的内核实现包括一个传输抽象层(由 nvmf_transport.ko 提供),用于隐藏大部分传输特定的细节,以便主机和控制器模块使用。这个模块会根据需要自动加载。独立的内核模块提供对各个传输的支持。这些模块必须显式加载才能启用传输。目前,FreeBSD 能通过 nvmf_tcp.ko 提供 TCP 传输的支持。可以在 中查看 TCP 相关的细节。

主机

FreeBSD 中的 Fabrics 主机内置了新的 命令和内核驱动程序 。内核驱动程序将远程控制器暴露为类似于 PCIe NVMe 控制器的新总线设备 nvmeX。远程命名空间通过磁盘设备 以 CAM 暴露。与 PCIe 的驱动程序 不同,Fabrics 主机驱动程序不支持磁盘驱动程序 。所有新的 nvmecontrol(8) 命令都使用从主机 UUID 生成的主机 NQN,除非显式指定主机 NQN。

发现服务

nvmecontrol(8) 的命令 discover 查询来自发现控制器的发现日志页面,并显示其内容。示例 1 显示了来自在 Linux 系统上运行的 Fabrics 控制器的日志页面。对于 TCP 传输,由服务标识符字段标识远程控制器的 TCP 端口。

示例 1:来自 Linux 控制器的发现日志页面

# nvmecontrol discover ubuntu:4420
Discovery
=========
Entry 01
========
Transport type: TCP
 Address family:       AF_INET
Subsystem type:        NVMe
 SQ flow control:      optional
 Secure Channel:       Not specified
 Port ID:              1
 Controller ID:        Dynamic
 Max Admin SQ Size:    32
 Sub NQN:              nvme-test-target
 Transport address:    10.0.0.118
 Service identifier:   4420
 Security Type:        None

连接到 I/O 控制器

nvmecontrol(8) 的 connect 命令与远程控制器建立关联。建立关联后,关联会传递给驱动程序 nvmf(4),后者会创建一个新的设备 nvmeX。connect 命令需要远程控制器的网络地址和子系统 NQN。示例 2 连接到 示例 1 中列出的 I/O 控制器。

示例 2:连接到 I/O 控制器

# kldload nvmf nvmf_tcp
# nvmecontrol connect ubuntu:4420 nvme-test-target

建立关联后,内核会将图 1 中的文本输出到系统控制台和系统信息缓冲区。设备 nvmeX 在设备描述中包括远程子系统 NQN,每个远程命名空间都列举为外设 ndaX。

图 1:连接时的控制台信息

nvme0: <Fabrics: nvme-test-target>
nda0:  at nvme0 bus 0 scbus0 target 0 lun 1
nda0: <Linux 5.15.0-8 843bf4f791f9cdb03d8b>
nda0:   Serial Number 843bf4f791f9cdb03d8b
nda0:  nvme version 1.3
nda0:  1024MB (2097152 512 byte sectors)

来自图 1 的 nvme0 设备能与其他 nvmecontrol(8) 命令一道使用,如 identify,类似于 PCIe 控制器。示例 3 显示了 nvmecontrol(8) 显示的部分控制器标识数据。能像任何其他 NVMe 磁盘设备一样使用磁盘设备 nda0。

示例 3:标识远程 I/O 控制器

# nvmecontrol identify nvme0
Controller Capabilities/Features
================================
...
Model Number:                Linux
Firmware Version:            5.15.0-8
...

Fabrics Attributes
==================
I/O Command Capsule Size:    16448 bytes
I/O Response Capsule Size:   16 bytes
In Capsule Data Offset:      0 bytes
Controller Model:            Dynamic
Max SGL Descriptors:         1
Disconnect of I/O Queues:    Not Supported

通过发现连接

nvmecontrol(8) 的命令 connect-all 从指定的发现控制器获取发现日志页面,并为每个日志页面条目创建关联。示例 2 中的关联可以通过执行 nvmecontrol connect-all ubuntu:4420 来创建,而不需要先获取发现日志页面并使用命令 connect 。

断开连接

nvmecontrol(8) 的命令 disconnect 从远程控制器断开命名空间并销毁关联。示例 4 断开 示例 2 中创建的关联。disconnect-all 命令销毁与所有远程控制器的关联。

示例 4:断开与远程 I/O 控制器的连接

# nvmecontrol disconnect nvme0

重新连接

如果连接中断(例如,一个/多个 TCP 连接失败),活动关联会被拆除(所有队列都会断开连接),但 nvmeX 设备会保持静止状态。所有挂起的远程命名空间的 I/O 请求也会保持挂起。在这种状态下,可以使用 reconnect 命令重新建立关联,以恢复与远程控制器的操作。示例 5 重新连接到 示例 2 中的控制器。请注意,reconnect 命令与 connect 命令类似,需要显式指定网络地址。

示例 5:重新连接到远程 I/O 控制器

# nvmecontrol reconnect nvme0 ubuntu:4420

控制器

示例 6:导出本地 ZFS 卷

# kldload nvmft nvmf_tcp
# ctladm create -b block -o file=/dev/zvol/pool/lun0
LUN created successfully
backend:        block
device type:   0
LUN size:      4294967296 bytes
blocksize      512 bytes
LUN ID:        0
Serial Number: MYSERIAL0000
Device ID:     MYDEVID0000
# nvmfd -F -p 4420 -n nqn.2001-03.com.chelsio:frodo0 -K

每当远程主机连接到 I/O 控制器时,内核都会记录一条日志,列出远程主机的 NQN(如图 2 所示)。

图 2:新关联的日志消息

nvmft0: associated with
nqn.2014-08.org.nvmexpress:uuid:00000000-0000-0000-0000-ffffffffffff

在 nvmfd(8) 运行时,可以通过 ctladm(8) 添加和删除 LUN。如果在添加和删除 LUN 时有远程主机连接,则会向远程主机报告异步事件。这使得远程主机能够在连接的同时注意到命名空间的添加和删除。

ctladm(8) 添加了两个新命令来管理 Fabrics 关联。nvlist 命令列出所有来自远程主机的活动关联。示例 7 显示了命令 nvlist 的输出,当一个主机连接到 示例 6 中的控制器时。

示例 7:列出活动关联

# ctladm nvlist
  ID Transport        HostNQN                              SubNQN
   0 TCP
nqn.2014-08.org.nvmexpress:uuid:00000000-0000-0000-0000-ffffffffffff
nqn.2001-03.com.chelsio:frodo0

nvterminate 可命令关闭一个和多个关联。可以终止单个连接或 NQN 的关联,也可以终止所有活动关联。示例 8 终止了 示例 7 中的关联。关联终止后,内核记录图 3 中的日志消息。

示例 8:终止关联

# ctladm nvterminate -c 0
NVMeoF connections terminated

图 3:终止后的日志消息

nvmft0: disconnecting due to administrative request
nvmft0: association terminated

结论

对 NVMe-oF 的支持即包含主机和控制器的功能会引入 FreeBSD 15.0。Fabrics 功能的开发由 Chelsio Communications, Inc. 赞助。


John Baldwin 是一名系统软件开发人员,已在 FreeBSD 操作系统中直接提交了二十年余的修改,涉及内核的各个部分(包括 x86 平台支持、SMP、各种设备驱动程序和虚拟内存子系统)及用户空间程序。除了编写代码,John 还曾在 FreeBSD 核心和发布工程团队中工作,并为 GDB 调试器做出了贡献。John 住在加州的康科德,与妻子 Kimberly 和三个孩子 Janelle、Evan 和 Bella 一起生活。

FreeBSD 上的 Fabrics 控制器将本地块设备作为 NVMe 命名空间暴露给远程主机。FreeBSD 上的控制器支持包括发现控制器的用户空间实现和内核中的 I/O 控制器。与 FreeBSD 中现有的 iSCSI 目标类似,内核中的 I/O 控制器使用 CAM 的目标层 ()。块设备是通过使用 添加 ctl(4) LUN 创建的。发现服务和 I/O 控制器连接的初步处理由守护进程 管理。内核中的 I/O 控制器由 模块提供。示例 6 将名为 pool/lun0 的 ZFS 卷作为 ctl(4) LUN 添加,再启动守护进程 nvmfd(8) 。远程主机可以将此 ZFS 卷作为 NVMe 命名空间进行访问。

NVMe Over Fabrics in FreeBSD
nvmf_tcp(4)
nvmecontrol(8)
nvmf(4)
nda(4)
nvme(4)
nvd(4)
ctl(4)
ctladm(8)
nvmfd(8)
nvmft(4)