FreeBSD 中文社区 2025 第二季度问卷调查
FreeBSD 中文社区(CFC)
VitePress 镜像站QQ 群 787969044视频教程Ⅰ视频教程Ⅱ
  • FreeBSD 从入门到追忆
  • 中文期刊
  • 状态报告
  • 发行说明
  • 手册
  • 网络文章集锦
  • 笔记本支持报告
  • Port 开发者手册
  • 架构手册
  • 开发者手册
  • 中文 man 手册
  • 文章
  • 书籍
  • FreeBSD 中文期刊
  • 编辑日志
  • 2025-123 下游项目
    • FreeBSD 发布工程:新主管上任
    • GhostBSD:从易用到挣扎与重生
    • BSD Now 与将来
    • 字符设备驱动教程(第三部分)
    • 学会走路——连接 GPIO 系统
    • FreeBSD 中对 SYN 段的处理
    • FreeBSD 2024 年秋季峰会
  • 2024-1112 虚拟化
    • 字符设备驱动程序教程(第二部分)
    • 面向 Linux 和 Windows 用户的 bhyve
    • Xen 与 FreeBSD
    • Wifibox:一种嵌入式虚拟化无线路由器
    • 嵌入式 FreeBSD:Fabric——起步阶段
    • DGP:一种新的数据包控制方法
    • 会议报告:我在都柏林的 EuroBSDCon 体验
  • 2024-0910 内核开发
    • 字符设备驱动程序教程
    • VPP 移植到了 FreeBSD:基础用法
    • 利用 Kyua 的 Jail 功能提升 FreeBSD 测试套件的并行效率
    • FreeBSD 上的 Valgrind
    • 嵌入式 FreeBSD:探索 bhyve
    • TCP/IP 历险记:FreeBSD TCP 协议栈中的 Pacing
    • 实用软件:实现无纸化(Paperless)
  • 2024-0708 存储与文件系统
    • FreeBSD 中的 NVMe-oF
    • FreeBSD iSCSI 入门
    • 使用 ZFS 原生加密保护数据
    • 嵌入式 FreeBSD:打造自己的镜像
    • TCP LRO 简介
    • 基于 Samba 的时间机器备份
  • 2024-0506 配置管理对决
    • 基本系统中的 mfsBSD
    • rdist
    • Hashicorp Vault
    • 在 GitHub 上向 FreeBSD 提交 PR
    • 悼念 Mike Karels
    • 2024 年 5-6 月来信
    • 嵌入式 FreeBSD 面包板
    • TCP/IP 历险记:TCP BBLog
    • 实用软件:开发定制 Ansible 模块
  • 2024-0304 开发工作流与集成
    • FreeBSD 内核开发工作流程
    • FreeBSD 与 KDE 持续集成(CI)
    • 更现代的内核调试工具
    • 从零开始的 ZFS 镜像及 makefs -t zfs
    • 提升 Git 使用体验
  • 2024-0102 网络(十周年)
    • FreeBSD 中的 RACK 栈和替代 TCP 栈
    • FreeBSD 14 中有关 TCP 的更新
    • if_ovpn 还是 OpenVPN
    • SR-IOV 已成为 FreeBSD 的重要功能
    • FreeBSD 接口 API(IfAPI)
    • BATMAN:更优的可移动热点网络方式
    • 配置自己的 VPN——基于 FreeBSD、Wireguard、IPv6 和广告拦截
    • 实用软件:使用 Zabbix 监控主机
  • 2023-1112 FreeBSD 14.0
    • LinuxBoot:从 Linux 启动 FreeBSD
    • FreeBSD 容器镜像
    • 现在用 Webhook 触发我
    • 新的 Ports 提交者:oel Bodenmann (jbo@freebsd.org)
  • 2023-0910 Port 与软件包
    • 回忆录:与 Warner Losh(@imp)的访谈
    • 在你自己的仓库中定制 Poudriere 源
    • Wazuh 和 MITRE Caldera 在 FreeBSD Jail 中的使用
    • PEP 517
    • CCCamp 2023 旅行报告
  • 2023-0708 容器与云
    • 在 Firecracker 上的 FreeBSD
    • 使用 pot 和 nomad 管理 Jail
    • 会议报告:C 与 BSD 正如拉丁语与我们——一位神学家的旅程
    • 抒怀之旅:与 Doug Rabson 的访谈
    • 基于 Jail 的广告拦截教程
    • 我们收到的来信
  • 2023-0506 FreeBSD 三十周年纪念特刊
    • CheriBSD 近十多年的历程
    • AArch64:成为 FreeBSD 新的一级架构
    • 岁月如梭:我个人的时间线
    • 安装 FreeBSD 1.0:回顾 30 年前
    • ZFS 是如何进入 FreeBSD 的呢?
    • 我不是来自约克郡的,我保证!
    • 回忆录:采访 David Greenman Lawrence
    • FreeBSD 和早期的 Unix 社区
    • 早期的 FreeBSD 移植
    • FreeBSD 30 周年:成功的秘诀
    • FreeBSD 在日本:回忆之旅与今日之实
  • 2023-0304 嵌入式
    • CheriBSD port 和软件包
    • 让我们来试试 ChatGPT
    • GPU 直通
  • 2023-0102 构建 FreEBSD Web 服务器
    • ZFS 的原子 I/O 与 PostgreSQL
    • 虚拟实验室——BSD 编程研讨会
    • ZFS 简介
    • 会议报告:落基山庆祝女性计算机科学家
    • 进行中的工作/征求反馈:数据包批处理
    • 基金会与 FreeBSD 桌面
  • 2022-1112 可观测性和衡量标准
    • 在 FreeBSD 的 DDB 内核调试器中编写自定义命令
    • DTrace:老式跟踪系统的新扩展
    • 基于证书的 Icinga 监控
    • 活动监控脚本(activitymonitor.sh)
    • 实用 IPv6(第四部分)
    • EuroBSDCon 会议报道
    • 实用 Port:Prometheus 的安装与配置
    • 书评:《用火解决问题:管理老化的计算机系统(并为现代系统保驾护航)》Kill It with Fire: Manage Aging Computer Systems (and Future Proof Modern Ones)
  • 2022-0910 安全性
    • CARP 简介
    • 重构内核加密服务框架
    • PAM 小窍门
    • SSH 小窍门
    • 实用 IPv6(第三部分)
    • 书评:Understanding Software Dynamics(深入理解软件性能——一种动态视角)—— Richard L. Sites 著
    • 访谈:保障 FreeBSD 安全性
    • MCH 2022 会议报告
  • 2022-0708 科研、系统与 FreeBSD
    • 在 FreeBSD 上构建 Loom 框架
    • 教授本科生 Unix 课程
    • FreeBSD 入门研讨会
    • 实用 IPv6(第二部分)
    • 在 2022 年及以后推广 FreeBSD
    • 进行中的工作/征求反馈:Socket 缓冲区
    • FreeBSD 开发者峰会报告
    • 支持 Electromagnetic Field 2022
  • 2022-0506 灾难恢复
    • 使用 FreeBSD 构建高弹性的私有云
    • LLDB 14 —— FreeBSD 新调试器
    • 实用 IPv6(第一部分)
    • 利用 netdump(4) 进行事后内核调试
    • 进行中的工作/征求反馈:FreeBSD 启动性能
    • 实用 Port:在 OpenZFS 上设置 NFSv4 文件服务器
  • 2022-0304 ARM64 是一级架构
    • FreeBSD/ARM64 上的数据科学
    • Pinebook Pro 上的 FreeBSD
    • 嵌入式控制器的 ACPI 支持
    • 进行中的工作/征求反馈:Lumina 桌面征集开发人员
    • 实用 Port:如何设置 Apple 时间机器
  • 2022-0102 软件与系统管理
    • 为 FreeBSD Ports 做贡献
    • 使用 Git 贡献到 FreeBSD Ports
    • CBSD:第一部分——生产环境
    • 将 OpenBSD 的 pf syncookie 代码移植到 FreeBSD 的 pf
    • 进行中的工作/征求反馈:mkjail
    • 《编程智慧:编程鬼才的经验和思考》(The Kollected Kode Vicious)书评
    • 会议报告:EuroBSDCon 2021 我的第一次 EuroBSDCon:一位新组织者的视角
  • 2021-1112 存储
    • 开放通道 SSD
    • 构建 FreeBSD 社区
    • 与完美操作系统同行 27 年
    • 进行中的工作/征求反馈:OccamBSD
    • 通过 iSCSI 导入 ZFS ZIL——不要在工作中这样做——就像我做的那样
  • 2021-0910 FreeBSD 开发
    • FreeBSD 代码审查与 git-arc
    • 如何为 FreeBSD 实现简单的 USB 驱动程序
    • 内核开发技巧
    • 程序员编程杂谈
  • 2021-0708 桌面/无线网
    • 通往 FreeBSD 桌面的直线路径
    • FreeBSD 13 中的人机接口设备 (HID) 支持
    • Panfrost 驱动程序
    • 用 Git 更新 FreeBSD
    • FreeBSD 的新面孔
    • 想给你的桌面加点佐料?
  • 2021-0506 安全
    • 七种提升新安装 FreeBSD 安全性的方法
    • copyinout 框架
    • 使用 TLS 改善 NFS 安全性
    • Capsicum 案例研究:Got
    • 对 Jail 进行安全扫描
  • 2021-0304 FreeBSD 13.0
    • 展望未来
    • FreeBSD 13.0 工具链
    • FreeBSD 13.0 中有新加载器吗?
    • TCP Cubic 准备起飞
    • OpenZFS 中的 Zstandard 压缩
    • 会议报告:FreeBSD 供应商峰会
    • Git 不够吗?
  • 2021-0102 案例研究
    • Tarsnap 的 FreeBSD 集群
    • BALLY WULFF
    • Netflix Open Connect
    • FreeBSD 的新面孔
    • 写作学者的 FreeBSD
    • 在世界之巅
  • 2020-1112 工作流/持续集成(CI)
    • FreeBSD Git 快速入门
    • 使用 syzkaller 进行内核 Fuzzing
    • Mastering Vim Quickly 书评
    • 线上会议实用技巧
    • 在控制台上进行网络监控
  • 2020-0910 贡献与入门
    • 采访:Warner Losh,第 2 部分
    • 代码审查
    • 撰写良好的提交消息
    • 如何在不是程序员的情况下做出贡献——成为 FreeBSD 译者
    • 如何成为文档提交者
    • 谷歌编程之夏
    • 为 FreeBSD 期刊撰写文章
    • 你为什么使用 FreeBSD
    • FreeBSD 的新面孔
  • 2020-0708 基准测试/调优
    • FreeBSD Friday
    • 采访:Warner Losh,第 1 部分
    • 构建和运行开源社区
    • 在 FreeBSD 上轻松搭建我的世界(Minecraft)服务器
    • FreeBSD 的新面孔
  • 2020-0506 网络性能
    • 内核中的 TLS 卸载
    • 访谈:Michael W Lucas
    • FreeBSD 桌面发行版
    • 使用 Poudriere 进行 Port 批量管理
    • FreeBSD 的新面孔
由 GitBook 提供支持
LogoLogo

FreeBSD 中文社区(CFC) 2025

在本页
在GitHub上编辑
导出为 PDF
  1. 2022-0708 科研、系统与 FreeBSD

进行中的工作/征求反馈:Socket 缓冲区

上一页在 2022 年及以后推广 FreeBSD下一页FreeBSD 开发者峰会报告

最后更新于1个月前

  • 原文链接:

  • 作者:TOM JONES & GLEB SMIRNOFF

在过去,BSD 网络堆栈有一个通用的套接字缓冲区实现,既用于 TCP、UDP、局部 IPC 套接字(即 UNIX 套接字)等。这些缓冲区当然有一些相似之处——它们用于缓冲数据,但也有一些根本性的区别。

有些是远程的,有些是本地的。有些支持数据流,有些支持数据报。随着 2015 年非阻塞 sendfile 的引入,我们提出了流发送缓冲区中“未就绪数据”的概念。然后,随着 2017 年 KTLS 的引入,它们变得更加复杂。与此同时,这些缓冲区仍然支持 POSIX 规定的 UNIX 控制消息。所以,我们得到了一段需要同时支持所有可能特性的通用代码——这变得非常复杂。它变得容易受到更改的影响,因为将一个套接字缓冲区修改为偏向某个协议可能会影响到另一个协议的行为。例如,未就绪数据的更改需要进行一次广泛的代码调整,而这些调整与 sendfile 完全无关,参见 git 提交 cfa6009e364 和 0f9d0a73a49。

在最后一个提交中,注意最后一段。SCTP 已经在 BSD 部分之外独立实现了自己的套接字缓冲区(这一实现给了我许多关于当前工作的启示)。与此同时,关于在 FreeBSD 中多少复制和粘贴是坏的,多少是好的观念在这些年里也发生了变化。我们有多个设备驱动程序,它们最初是作为其他驱动程序的粘贴而来的,但很明显,差异逐渐累积,最终就显得有意义去编辑一个粘贴,而不是在一个代码中支持两个相似的实例。接近套接字层的一个例子是两个 TCP 堆栈,它们也作为两个独立的源文件进行维护。总结来说,我们不再认为“一份代码适用于所有”是个好主意。最初,套接字代码很难从第一、第二、第三次观察中进行修改。如果你查看当前的 soreceive_generic() 和 sosend_generic(),你就会明白为什么。然而,在做了这些工作之后,我提出了一个计划,使我能够“拾起棍子,留下结构不倒”(https://en.wikipedia.org/wiki/Pick-up_sticks)。

  1. 我们只有两种 SOCK_DGRAM 套接字:UNIX 和 UDP。只需重新定义 pru_sosend 和 pru_soreceive,我们就有了 PF_UNIX/SOCK_DGRAM 的私有代码实现。参见 34649582462 和 e3fbbf965e9。这使得 PF_INET/SOCK_DGRAM(即 UDP)成为 uipc_socket.c 中通用 sockbuf 代码支持的唯一数据报类型。

  2. sockbuf 可以被拆分为与事件调度交互的公共部分和执行实际缓冲的私有部分。(参见提交 a4fc41423f7 和 a7444f807ec)。这使得 PF_UNIX/SOCK_DGRAM 完全独立!这意味着 PF_INET/SOCK_DGRAM(即 UDP)将成为 struct sockbuf 中遗留部分需要支持的唯一数据报类型。

  3. 现在我们可以开始改进 PF_UNIX/SOCK_DGRAM,然后再处理其他部分。长期以来,一对多的 unix/dgram 套接字存在一个问题:一个写入者可能会使套接字溢出,从而有效地进行 DDoS 攻击。这里是我们历史上的尝试:2e89951b6f20 和 240d5a9b1ce76。我们可以让一对多的套接字为每个对等方维护一个独立的子缓冲区。参见 458f475df8e。此外,也可以通过无锁队列的方式来提高 unix/dgram 的速度,但这次我不打算这样做。对于我来说,unix/dgram 的每秒数据包性能并不是最关键的。

  4. 回到套接字结构——PF_INET/SOCK_DGRAM(即 UDP)是唯一一个仍使用通用实现的数据报套接字,因此我们也可以将它私有化。很高兴看到 Robert Watson 已经为 UDP 准备了两个函数:sosend_dgram() 和 soreceive_dgram()。但 soreceive_dgram() 还不能完全替代 soreceive_generic(),需要修复使用 soreceive_generic() 处理复杂情况的部分。

  5. 现在我们可以开始研究 UDP 性能,并可能让它使用 buf_ring(9) 替代链式 mbuf 列表吗?谁愿意承担这个任务?我们肯定关心 UDP 的每秒数据包处理性能,对吧?

  6. 由于 sosend_generic() 和 soreceive_generic() 不再需要支持数据报类型,我们终于可以简化它们了!这可能是历史上第一次,这两个庞大的函数将缩小而不是膨胀。

  7. 这使得 UNIX/STREAM 成为唯一一个由通用代码支持并且具有控制数据的套接字类型。如果它获得私有实现,我们可以从 sosend_generic() 和 soreceive_generic() 中移除对控制数据的支持。此时,它们将进一步简化!

  8. 我们距离让 TCP 和 SCTP 独立处理已经非常接近了。需要注意的是,还有一些特殊的套接字,如 netgraph 等。目前,不清楚哪种计划更好:要么选择

  • –1,将 TCP 与通用代码隔离,

  • 要么选择 –2,将其他所有内容从通用代码中隔离并将通用代码重命名为 TCP。

无论哪种方式,最终目标是将 TCP 和 SCTP 的套接字缓冲区隔离开来,从而解放我们的双手,进行性能优化,而不必担心影响到其他部分。

在 D36002 中,Alexander Chernikov 现在分享了他为 NETLINK 套接字类型所做的工作。这个套接字可能会累积整个互联网的路由表视图,涉及需要从内核读取数百兆字节的数据。通用的套接字缓冲区实现需要分配大量 mbuf 来存储这些数据。这样的全视图获取可能导致 mbuf 短缺,这是路由器上的关键资源。但是,我们为什么一开始就使用 mbuf 呢?我们只是需要将数据从内核复制到用户空间。新的 NETLINK 将从协议特定的套接字缓冲区中受益,该缓冲区将数据从其特定的数据结构复制到用户空间 I/O,而不需要使用 mbuf。

人们如何测试这些工作?

PF_UNIX/SOCK_DGRAM 的新实现已经成为 FreeBSD 主分支的一部分。非常欢迎各种反馈和测试,尤其是那些有大量 syslog(3) 流量,且曾受日志套接字溢出问题影响的人。


TOM JONES 希望基于 FreeBSD 的项目能获得应有的关注。他住在苏格兰东北部,提供 FreeBSD 咨询服务。

GLEB SMIRNOFF 在 17 岁时第一次接触 FreeBSD,并对其一见钟情。他曾在大大小小的公司工作,总是寻找一个能让他为开源做出贡献的工作。现在,他在奈飞 OpenConnect 团队工作,正在用前所未有强大的 FreeBSD 服务器流量饱和互联网。

进一步的计划仍在进行中。我通常在工作处于早期阶段时,将其分享在 ,在更成熟时将其发布到 。欢迎在那里,或通过电子邮件发表评论。

WPT/CFT: Socket Buffers
https://github.com/glebius/FreeBSD
https://reviews.FreeBSD.org