小红花·文摘

BPF程序在沙盒中执行，无法随意调用内核函数或访问内存。它通过预定义的helper函数进行特定操作，每个helper函数有特定的调用上下文，限制了其在不同BPF程序类型中的使用。本文解析了helper函数的注册机制、参数类型编码及验证逻辑，强调了类型检查和NULL检查的重要性，以确保BPF程序的安全性。

【eBPF 内核实现深度拆解】Helper 函数子系统：注册、类型检查与参数传递

土法炼钢兴趣小组的博客 ·

本文讨论了多队列网卡的流量分发机制，包括RSS、RPS、RFS、XPS和aRFS。这些机制有效地将入站流量分配到多个CPU，从而提升网络性能。文章详细解析了每种机制的实现原理及其在Linux内核中的应用，强调了在NUMA系统中合理配置的重要性。

【Linux 网络子系统深度拆解】多队列与流量分发：RSS/RPS/RFS/XPS

土法炼钢兴趣小组的博客 ·

本文分析了四种隧道协议：IPIP、GRE、VXLAN和WireGuard。IPIP是最简单的，开销20字节；GRE支持可选的key和序列号；VXLAN可支持1600万个隔离网络，开销50字节；WireGuard是现代加密隧道，开销60字节，使用ChaCha20-Poly1305加密。文章还探讨了它们的实现细节及适用场景。

【Linux 网络子系统深度拆解】隧道协议内核实现：VXLAN、IPIP、GRE 与 WireGuard

土法炼钢兴趣小组的博客 ·

本文深入探讨了Linux虚拟网络设备的实现，包括veth、bridge、macvlan和tun/tap。veth用于跨命名空间通信，bridge作为软件二层交换机，macvlan提供轻量级MAC地址虚拟化，tun/tap则是内核与用户态之间的数据通道。文章详细分析了每种设备的性能、数据路径和适用场景，特别强调了veth和bridge的双重协议栈开销，以及macvlan和ipvlan的高性能特性。

【Linux 网络子系统深度拆解】虚拟网络设备内核实现：veth、bridge 与 macvlan

土法炼钢兴趣小组的博客 ·

本文探讨了Linux内核中的网络命名空间机制。每个容器拥有独立的网络栈，包括IP地址、路由表和iptables规则。通过创建新的网络命名空间，内核实现了资源的隔离与管理。文章分析了结构体net的设计、命名空间的创建与销毁过程，以及veth对跨命名空间通信的支持，强调了命名空间在容器网络架构中的重要性。

【Linux 网络子系统深度拆解】网络命名空间：内核级网络隔离的实现

土法炼钢兴趣小组的博客 ·

本文深入探讨了Linux的流量控制（Traffic Control，TC）框架，分析了多应用同时发包时的调度策略。TC通过应用层命令、内核层分类器和排队规则实现带宽分配和优先级调度。常用的qdisc如pfifo_fast和fq_codel分别实现优先级队列和公平排队，解决延迟控制和流量管理问题。EDT（Earliest Departure Time）模型优化了包的发送时机，提高网络性能。

【Linux 网络子系统深度拆解】Traffic Control 深度拆解：qdisc、class 与 filter

土法炼钢兴趣小组的博客 ·

Netfilter 是 Linux 内核中的网络包处理框架，负责数据包的处理方式。它通过五个钩子点在数据包收发路径中插入回调函数，允许对数据包进行放行、丢弃或修改。本文探讨了钩子注册、连接跟踪和 NAT 转换的实现细节，以及 nftables 的架构改进，强调性能优化和可观测性的重要性。

【Linux 网络子系统深度拆解】Netfilter 内核实现：钩子、conntrack 与 NAT

土法炼钢兴趣小组的博客 ·

本文深入探讨了Linux内核中IP路由的实现，包括发包和收包的路径、路由表结构、最长前缀匹配算法、策略路由机制、ECMP负载均衡及现代nexthop对象管理。重点分析了路由查找流程和优化，介绍了通过策略路由和ECMP实现高效网络数据转发的方法。

【Linux 网络子系统深度拆解】路由子系统深度拆解：FIB、策略路由与路由缓存

土法炼钢兴趣小组的博客 ·

邻居子系统负责将L3地址转换为L2地址，使用ARP和NDP协议进行地址解析。文章分析了邻居缓存的结构、NUD状态机及其转换、ARP协议的实现，以及通过快路径和慢路径优化数据包发送的方法。还讨论了Proxy ARP和垃圾回收机制，以管理邻居缓存的增长，并提供了调优建议和可观测性工具，以监控邻居表的状态和性能。

【Linux 网络子系统深度拆解】邻居子系统与 ARP：L2 地址解析的内核实现

土法炼钢兴趣小组的博客 ·

本文深入解析了 Linux 内核中的 socket 机制，介绍了双层分发架构，包括 VFS 层和协议层的结构与功能。详细说明了 socket 创建过程、proto_ops 分发机制、SO_REUSEPORT 的多核支持，以及与 epoll 的集成。通过内核源码分析，揭示了 socket 的核心数据结构及其在网络通信中的重要性。

【Linux 网络子系统深度拆解】Socket 层内核实现：从 VFS 到协议栈的桥梁

土法炼钢兴趣小组的博客 ·

本文深入探讨了UDP协议的内核实现，分析了其五个核心机制：socket查找优化、接收与发送路径、UDP GRO聚合、批量收发和UDP封装支持。UDP的轻量特性在高性能场景中表现优异，但独立查找socket的开销也不容忽视。通过双哈希表和优化的接收队列，UDP在高并发情况下能有效提升性能，并支持多种封装协议，适用于隧道技术。

【Linux 网络子系统深度拆解】UDP 内核实现与 socket lookup 优化

土法炼钢兴趣小组的博客 ·

本文探讨了TCP数据传输与拥塞控制的内核实现，分析了发送路径和ACK处理机制。TCP通过发送缓冲区、拥塞窗口和接收窗口管理数据流，使用Nagle算法和TCP Small Queues优化发送效率，避免延迟膨胀。拥塞控制算法如CUBIC和BBR各有特点，前者基于丢包，后者基于带宽估算。文章还介绍了丢包检测机制RACK和TLP，提升了TCP的可靠性与性能。

【Linux 网络子系统深度拆解】TCP 内核实现（下）：数据传输与拥塞控制

土法炼钢兴趣小组的博客 ·

本文深入探讨了TCP协议在Linux内核中的实现，包括连接管理、状态机、SYN队列与Accept队列的结构及其交互。介绍了SYN Cookie的无状态防御机制、TCP Fast Open的零RTT连接建立方法，以及TIME_WAIT状态的轻量化处理。通过分析内核源码，阐明了TCP连接的复杂性和优化策略，强调了高并发场景下的参数调优。

【Linux 网络子系统深度拆解】TCP 内核实现（上）：连接管理与状态机

土法炼钢兴趣小组的博客 ·

本文深入探讨了Linux内核中IP层的路由机制，分析了FIB的LC-trie数据结构、策略路由的ip rule机制、Netfilter钩子的调用位置及性能影响，以及IP分片与重组的处理流程。通过内核源码解析，揭示了路由查找的复杂性和优化策略，强调了高流量场景下的性能瓶颈及调优建议。

【Linux 网络子系统深度拆解】IP 层内核实现：路由查找、分片与转发

土法炼钢兴趣小组的博客 ·

本文探讨了Linux内核中的软中断机制，重点分析了网络数据包的处理。软中断是一种不可抢占的延迟执行机制，主要用于网络和块设备。文章讨论了软中断的调度、执行路径及其与ksoftirqd线程的关系，并指出在高负载情况下可能出现的延迟问题。通过引入Threaded NAPI和PREEMPT_RT内核，改善了网络处理的实时性和调度公平性，并提供了在高PPS场景下的性能调优建议。

【Linux 网络子系统深度拆解】软中断与 ksoftirqd：网络包处理的调度引擎

土法炼钢兴趣小组的博客 ·

本文探讨了Linux内核中数据从用户态调用send()到网线上发送的路径。发包过程包括TCP分段、拥塞控制和Qdisc调度等多个阶段。关键函数tcp_sendmsg()负责将用户数据复制到skb中，并通过拥塞窗口和TSQ限制控制发送时机，最终数据通过dev_queue_xmit()发送到网卡，完成TX过程。

【Linux 网络子系统深度拆解】发包路径全解：从 send() 到网线

土法炼钢兴趣小组的博客 ·

本文详细解析了Linux内核中网络包的收包路径，包括从网卡接收数据到用户态的各个阶段。重点介绍了关键函数如net_rx_action、ip_rcv和tcp_v4_rcv的作用，以及NAPI和软中断的调度机制。分析了网络性能瓶颈并提出优化建议，如调整netdev_budget和GRO设置，以提高高流量场景下的处理效率。

【Linux 网络子系统深度拆解】收包路径全解：从 NIC 中断到 socket 接收队列

土法炼钢兴趣小组的博客 ·

本文探讨了Linux内核网络栈中的net_device和net_device_ops结构体，分析了它们在网络设备驱动与内核之间的接口作用。重点介绍了NAPI收包模型在中断与轮询之间的切换，以提高高负载下的性能，并讨论了多队列架构的并行处理能力及描述符环形缓冲区在数据传输中的重要性，最后强调了环形缓冲区大小对延迟和吞吐量的影响。

【Linux 网络子系统深度拆解】net_device 与网卡驱动模型：从硬件到内核的接口契约

土法炼钢兴趣小组的博客 ·

本文深入解析了 Linux 内核中的 sk_buff 数据结构，探讨其内存布局、指针操作、克隆机制及分片机制。sk_buff 是网络栈中每个网络包的元数据容器，包含指向数据缓冲区的指针。通过四个关键指针（head、data、tail、end），sk_buff 实现高效的数据处理，避免频繁的内存复制。文章还讨论了 sk_buff 的分配与释放机制，以及在高包率场景下的性能优化策略，如快速克隆和页面池。理解 sk_buff 是掌握 Linux 网络栈的基础。

【Linux 网络子系统深度拆解】sk_buff 全解：内核网络包的终极容器

土法炼钢兴趣小组的博客 ·

本文深入解析Linux内核网络子系统，基于6.6 LTS源码，探讨sk_buff、NAPI、softirq等关键组件的功能与实现，涵盖网络包的收发路径、协议栈实现、核心子系统及性能优化，旨在帮助具备C语言基础的网络工程师和内核开发者理解网络处理机制。

Linux 网络子系统深度拆解

土法炼钢兴趣小组的博客 ·