阅读了有关BBR的文章[1],感觉深受启发,遂写一篇总结的文章。
何为基于拥塞?
作者们取的这个题目(Congestion-Based Congestion Control)首先勾起了我的兴趣。我快速的在脑里面复习前段时间刚刚在TCP/IP卷一中学习的有关拥塞控制的机制和算法:快速重传,拥塞避免(Congestion Avoidance),记得就这俩。
快速重传基于3次或多次的重复ACK,得知接收方没有收到重复ACK指示的分组,因此很有可能发生了丢包。而拥塞避免则是在达到最大的拥塞窗口时,不断的上探能不能扩大窗口,发现丢包的时候立即回到原本的窗口。因此,这两个算法,都是基于丢包的拥塞控制。
但是,文章指出,随着网卡设备从Mbps到Gbps级别的转变,内存从KB到GB的转变,丢包与拥塞的关系变得不再像以往那么紧密了。文章没有指出为什么,我想是因为队列能够容纳的分组越来越多,因此因为队列满而导致丢包的现象会减少,但同时排队时延变得很长,意味着拥塞现象仍然存在。但是,基于丢包的拥塞控制算法无法检测出来。
非但如此,基于丢包的拥塞控制算法还是拥塞的罪魁祸首(真讽刺)。由于在没有发生丢包的时候,算法普遍会上探拥塞窗口的值,导致发送越来越多的分组,但是由于发送的速率其实并没有多少变化(下面核心思想中会继续阐述这点),因此排队的分组将会越来越多,最终导致超长时间的拥塞。
为了修复这个历史遗留问题,文章提出基于拥塞的拥塞控制算法。基于拥塞的算法,说明BBR确实能够发现已经存在的拥塞情况,并且使用了比丢包这个指标要有效的指标来发现拥塞,不然不可能这么起名字。事实上还真的是。
核心思想
拥塞特征
要发现拥塞,首先就要了解其特征。文章指出, 在任何时候,一条全双工的TCP连接中,在一个方向上有且仅有一个最慢的链路,也就是瓶颈链路。 不难理解,最慢的链路决定了整条链路的速度。瓶颈链路重要在
- 其决定了整条链路的传输速度。
- 其上面排队了所有因发送速率高于传输速率而多出的分组。排队是因为发送的速率低于接收的速率。很显然,上游的链路的发送速率是高于接收速率的(不然就是瓶颈了),因此分组不会在那里排队。而瓶颈这里,由于发送速率基本不变了,而接收速率却在增大(因为拥塞控制的窗口上探),因此队列就在这里产生了。按文章的说法,就是上游链路的队列转移到了瓶颈链路。
核心指标
无论TCP链路怎么变,其都可以看成一条拥有同样传输速率和RTT(Round-Trip Time)的链路。算法依赖的核心指标就是这两个
- RTProp:Round-Trip Propogation Time,是单个分组的往返所需时间。
- BtlBW:Bottleneck Bandwidth,是瓶颈链路带宽
这两个变量也是算法名称BBR的来源。通过下图来了解两者与拥塞的关系。
上方是传输中分组(inflight)与RTT的关系。当应用程序限制了发送数量的时候,也就是链路能够处理所有流量的时候,RTT会等于RTProp。但是,当分组数量超过RTProp与1/BtlBw的交点(或者发送速率大于瓶颈速率)时,将会在瓶颈链路处开始排队,拥塞产生,此时引入了排队时延,因此RTT开始上升,直到缓存被耗尽,开始丢包,RTT不再变化(不算丢包的分组的话)。
为什么是线性的上升呢?这里假定是发送速率恒定,也就是窗口是恒定的。所有的分组来到瓶颈处都需要排队,每个分组的排队时延由队列长度决定。由于瓶颈处发送速率恒定,队列的消耗速率恒定,但是队伍的补充是由一个到达接收方的分组,触发接收方发送ACK到发送方,然后发送方继续发送才补充的。因此基本上接近队列发送一个,就接收一个的情况,因此队列长度基本不变,排队时延也就不变了。
下方的图,则是传输中分组与传输速率的关系。可以看到,当链路资源充足(瓶颈在应用处)的时候,传输速率其实是由发送多少决定的。但是当速率上去时,最终还是会达到BtlBW的速率,并且不会再改变了。链路速率无法突破,多出来的分组就会去排队了。
交点含义
我们可以在图中看到两个交点。其中,右侧的交点是当前基于丢包的拥塞控制算法的运行点。其拥塞窗口的不断上探,队列越来越满,以至于丢包的时候才会回退。可以看到,其不仅造成了网络拥堵,还提高了RTT。
最优的操作点应该是左侧的交点,称为Bandwidth Delay Product(BDP)。在这一点上,不仅能够达到最大的速率,还避免了链路中拥塞的情况,同时也确保RTT在一个最小的值附近。要是全天下都部署了BBR,还会有拥塞的情况吗?
不过,文章说,以前的研究[2]认为左侧点不可能使用分布式的算法接近,因此大家的研究方向就往右侧点上去了。这真是祸害不浅啊。
指标计算
RTprop是来回传输时间的最小值,实际上我们测量到的RTT会包含各种噪音,因此我们很难测出准确的值。BBR算法的测算,是通过发送少量分组(4个),计算其最小的RTT,来获取RTProp的近似估计值。
而瓶颈速率,则直接取我们传输速率的最大值即可。因为传输不可能超过瓶颈速率。
算法执行状态图
确定了这两个变量之后,接下来就是要通过发送分组,查看ACK携带的信息,来估计这两个值。在没有异常情况时,算法的状态转移如下。
Startup状态
首先,开始传输时,进入Startup状态。在这个状态之中,算法需要快速上探获得第一次测量的瓶颈速率。由于当前网络设备速率最高达到10的12次方级别,因此使用指数(倍数为2/ln2)上涨方式获取最大值,加上二分搜索的方式获取瓶颈值。
为了能够准确的查找到瓶颈,BBR算法使用三次计算来确认。仅当3次上探的尝试只带来些许的速率增长(低于25%)时,认为当前到达了瓶颈速率。进行3次,是为了给机会能够让接收方的窗口调节算法适应这个新的速率,扩大接收窗口,以提高接收速率。第一次提高速率,接收方发现,然后扩大窗口,第二次发送方填满这个窗口,第三次发送方就能够探测到这次速率的上升。
在Startup状态中,由于有一部分时间会超过瓶颈速率,因此在瓶颈处产生队列。因此为了缩减这个队列,在Startup状态结束后,进入Drain状态。
Drain状态
为了快速缩短队列长度,其使用了上升过程中的倍数的倒数值计算传输间隔,发送新的分组。这个速率将会低于瓶颈值,从而缩减队列。
ProbeBW状态
ProbeBW状态是在算法稳定运行时绝大多数(98%)时间所处的状态。
在这个状态中,瓶颈带宽有可能会改变。为了试探是否有更多的瓶颈带宽,算法将周期性的进行上探。原本,算法大约每隔一个RTProp发送一次分组,,但是具体由一个叫pacing_gain的变量确定,具体算式为 nextTime = now + packet.size / (pacing_gain * BtlBW)
。并且pacing_gain以5/4,3/4,1,1,1,1,1,1
的周期进行变化。因此,在pacing_gain为5/4时,下一次发送的时间将会变短,单位时间内发送的分组将会变多,也就是发送速率上探,如果接收到的分组,其RTT没有太大的变化,说明上探成功。但是如果测量到RTT增大,说明当前瓶颈速率不变,需要保持当前速率。而3/4时,就用于缩短因为上探失败而累积的队列。
ProbeRTT状态
从第一幅图中我们看到,要准确测量瓶颈带宽,需要到BDP右边。但是同时,RTT将会带有排队时延,因此无法较为准确测量RTProp。
因此,BBR会以最短200ms,或者一个RTProp的时间内,发送极少量的分组(4个),测试新的RTProp的值。测试完成后,即返回ProbeBW状态。
这个时间的选取,是为了尽可能的减少只发送少量分组的时间。因为RTProp的值会在10秒内有效,因此至少200毫秒的时间,最优情况下仅需占用2%的时间。
总结
随着网络设备的升级,以前基于丢包的拥塞控制算法已经显现出其劣势了。现在看到了基于RTProp和BtlBw的BBR的出现,给了另外的一大拥塞控制思虑。BBR我也用过,效果确实是不错的。希望有朝一日能够成为必须的算法来部署,减缓一下网络拥塞吧。
参考文献
[1] Neal Cardwell, Yuchung Cheng, C. Stephen Gunn, Soheil Hassas Yeganeh, Van Jacobson. BBR Congestion-Based Congestion Control. ACMQueue. 2016.09. [2] Jaffe, J. 1981. Flow control power is nondecentralizable. IEEE Transactions on Communications 29(9): 1301–1306.