IPv4 Fragmentation 存在的意义
IPv4 设计的最大容量是 65535 bytes (包括 header),然而网络当中有多种不同的传输链路且每种链路所对应的最大传输值(MTU)都不同。为了适应不同的链路,IPv4 在设计时就允许各网络节点对数据包进行 data fragmentation。
比如一台 router 从 FDDI 接口收到了一个大小为 4352 bytes 的数据包,为了从 Ethernet 接口把该数据发送出去就需要 fragmentation,将一个大的数据包切分为多个小的数据包从而满足 Ethernet 1500 bytes MTU 的要求。
谁在决定能不能做 Fragmentation
能不能对一个数据包做 fragmentation 是由该数据包中所携带的一个特殊字节所决定的,在 IPv4 header 中有个长度为 3-bit 的 flags,其中的 bit 1 代表 Don’t Fragment (DF), bit 2 代表 More Fragments (MF)。
DF bit = 0 代表可以做 fragmentation,DF bit = 1 代表不能做 fragmentation。
MF bit = 0 代表该数据包是整个数据流里面最后一个包,MF bit = 1 代表还有更多被 fragment 的数据包
网络中的节点就靠 DF bit 判断能否做 fragmentation,靠 MF bit 判断做了 fragmentation 的数据包是否全部收到。
IPv4 Fragmentation 带来的问题
- 需要占用更多的 CPU 和 RAM 来进行 fragmentation 和 reassembling。Router 的 RAM 有限,进行 reassembling 的时候需要把未接收完的数据包都放在 buffer 里面排队,对系统的影响较大。
- 如果被 fragment 的数据包在传输中出现任意一个掉包那么全部的数据都需要进行重传,例如 1 个大的数据包被分为了 6 个小的数据包进行传输,那么任何一个小数据包掉包都会导致重传 6 个数据包。
- 一个大的数据包进行 fragmentation 后会变为 initial fragment (第一个数据包)和 non-initial fragment (第二个及以后的数据包),non-initial fragment 数据包只带有 3 层信息。如果数据在传输的过程中出现了 out of order,有些防火墙如果收到的第一个数据包是 non-initial fragment 就会将其丢弃。non-initial fragment 可以穿透一些未配置正确的防火墙或者 ACL 从而实现 IP fragmentation attack。
由于以上各种问题,在网络中我们需要尽量的避免 fragmentation。
TCP Maximum Segment Size (MSS)
MSS 是一种避免 fragmentation 的机制,只对 TCP 有效,MSS 的数值只存在于 TCP Syn 当中。
从上图可以看出 MSS 的大概工作原理,即双方同时在 TCP Sync 里附带自己想要的 MSS,两者取其小,这个 MSS 是根据不同链路的 MTU 来决定的。Host A 的 MSS 取值 1460 是有原因的,1460 = 1500 (Ethernet MTU) – 20 (IP header) – 20 (TCP header),理想情况下一个 Ethernet 数据包最多可以传输 1460 bytes 数据 (IP header 和 TCP header 的值有一个范围,大大部分情况下它们都是 20 bytes)。
需要注意的是很多人误以为 MSS 是由双方经过协商后得到的值,其实并没有协商的过程,只是取最小值。
Path MTU Discovery (PMTUD)
TCP MSS 解决了端到端的 fragmentation 问题,但是无法解决在传输链路的中间出现较小 MTU 的情况,如下图两台 router 直接的 MTU 小于发送方或者接收方:
PMTUD 就是为了解决这类问题,PMTUD 可以动态的检测到链路上最小的 MTU。PMTUD 仅支持 TCP 和 UDP 协议,在开启了 PMTUD 的设备上 TCP 或者 UDP 一般会将 DF bit 设置为 1 即 Don’t Fragment。
以上图为例,如果 Client 发送了一个 MSS 为 1460 且 DF bit 为 1 的数据包,router 发现该数据包大于了其接口 MTU,但是又无法对其进行 fragmentation (因为 DF bit = 1)。Router 会丢弃该包并返回一个 ICMP Destination Unreachable 并在里面包含 “”fragmentation needed and DF set” (type 3, code 4)。Client 收到该 ICMP 后会减小 MSS 并进行重传。在 Cisco IOS 上我们可以利用debug ip icmp查看返回的 ICMP 信息:
ICMP: dst (10.10.10.10) frag. needed and DF set unreachable sent to 10.1.1.1
在这个 ICMP 里面还会加上下一跳的 MTU 值从而方便 Client 修改 MTU。
PMTUD 遇到的问题
在实际部署的时候 PMTUD 遇到的最大的问题是网络节点返回的 ICMP 被防火墙或者 ACL 阻挡并丢弃,出现这种情况可能导致网络情况不稳定,我们可以通过允许 ICMP unreachable 来解决:
access-list 101 permit icmp any any unreachable
其他方法
另外一种解决方法是在 router 利用 route-map 上把 DF bit 清除掉,强制进行 fragmentation。这种方法同时适用于 TCP 和 UDP。
interface Gi0/0 ... ip policy route-map Remove_DF_Bit ! route-map Remove_DF_Bit permit 10 match ip address 101 set ip df 0 ! access-list 101 permit tcp any any
如果是 TCP 的数据包,还有一种方法是在 router 接口上对 TCP Syn 里面的 MSS 进行替换,换成一个小的 MSS。
int gi0/0 ip tcp adjust-mss 1460
当网络中存在 tunnel 时,例如 GRE, IPsec 等我们需要对 MTU 格外的小心,因为 tunnel 的 header 会增加额外的数据长度,我们的 MTU 需要进一步的缩小。Tunnel 相关的 MTU 设定将在今后的文章中介绍。