Lec 17 视频流（Video Streaming / ABR）

阅读资料

T-Y. Huang, R. Johari, N. McKeown, M. Trunnell, M. Watson, A Buffer-Based Approach to Rate Adaptation (BBA), SIGCOMM 2014.（读 1–3 节）
H. Mao, R. Netravali, M. Alizadeh, Neural Adaptive Video Streaming with Pensieve, SIGCOMM 2017.

互联网视频占了绝大部分流量。现代流媒体走 HTTP 自适应流（DASH/HLS）：视频被切成几秒一个的分块 (chunk)，每块预编码成多档码率；客户端边播边为每一块自适应地选码率（ABR, Adaptive BitRate）。本讲两篇分别代表两条路线：手工设计的 BBA，与用强化学习自学的 Pensieve。

总览

ABR 问题与 QoE 目标
基于吞吐预测的 ABR 为什么脆弱
BBA：直接用缓冲区水位决定码率
Pensieve：用强化学习自学 ABR 策略
论文重点

一、ABR 问题与 QoE

客户端有一个播放缓冲区：下载好的块进缓冲、播放器从缓冲取块播放。每下载一块要决定它的码率。

定义 · QoE（体验质量）的几个相互冲突的目标

高码率/高清晰度（越高越好）；
不卡顿（避免 rebuffering）：缓冲被取空就要暂停缓冲，是体验杀手；
平滑：码率别频繁大幅跳变；
低启动延迟。

矛盾：想要高码率就得下大块、缓冲更容易被取空→卡顿；想绝对不卡就一直挑低码率→画质差。ABR 就是在这几者间权衡。

二、基于吞吐预测的 ABR 为什么脆弱

直觉做法：估计当前网络吞吐，挑一个"略低于吞吐"的码率。问题是吞吐估计很不准：

痛点
视频是断续下载（on-off）：缓冲满了就停下载一段时间（off），导致测到的"吞吐"忽高忽低、系统性偏低；CDN/TCP 慢启动、竞争流也让单块下载速率失真。基于错误的吞吐估计选码率，要么过保守（画质差），要么过激进（卡顿）。

三、BBA：直接用缓冲区水位决定码率

定义 · Buffer-Based Approach
干脆不（在稳态）估计吞吐，而是把当前缓冲区占用量当作唯一信号：定义一个映射 $f(\text{buffer})\to\text{码率}$——缓冲低就选低码率（保命、防卡顿），缓冲高就敢选高码率。只有在启动阶段缓冲还没建起来时才辅助用一点吞吐估计。

推论 · 为什么缓冲水位本身就够用
缓冲区占用其实已经隐式编码了吞吐与码率的关系：如果缓冲在涨，说明下载速度 > 播放消耗，可以提码率；在跌就该降。直接用这个可观测、无偏的量做决策，绕开了不可靠的吞吐预测，显著减少卡顿。论文来自真实大规模点播服务（Netflix）的数据，证明简单的 buffer→bitrate 映射就能打败复杂的吞吐预测方案。这是"用一个稳健的可观测量替代脆弱的预测"的经典案例。

四、Pensieve：用强化学习自学 ABR

BBA 等都是手工设计的启发式，依赖人对网络的假设，难以同时在各种网络条件下最优。Pensieve 改用强化学习（RL）直接从经验里学策略。

定义 · Pensieve 的 RL 表述
用神经网络做 ABR 决策（A3C 训练）：状态 = 过去若干块的吞吐、当前缓冲水位、上一个码率、剩余块数等；动作 = 下一块选哪个码率；奖励 = QoE 函数（+码率，−卡顿，−码率波动）。在大量模拟网络轨迹上训练，让网络自己学出"在什么状态下选什么码率"。

推论 · 学习 vs 手工设计
Pensieve 不预设任何网络模型/公式，直接优化最终 QoE，因此能适应吞吐预测难、缓冲式启发式也照顾不到的复杂/多变网络，在多种网络条件下普遍优于（或追平）BBA、MPC 等最佳手工方案。代价/争议：需要大量训练、奖励函数要人定、可解释性差、对训练分布外的网络是否稳健需谨慎——这是"把 ML 用进系统决策"的典型权衡（与 [[Content-Distribution.md]] 的 VideoStorm、NAS 同属一脉）。

五、论文重点

BBA（Fig. buffer→rate 映射 + on-off 吞吐失真）：核心是「稳态只看缓冲水位选码率、启动期才用吞吐」，用真实服务数据证明它比吞吐预测更少卡顿、更稳。
Pensieve：把 ABR 建成 RL（状态=吞吐/缓冲/历史，动作=码率，奖励=QoE），A3C 训练出的神经网络策略在多种网络下超过手工启发式。

本讲小结

HTTP 自适应流让客户端逐块选码率以权衡清晰度/卡顿/平滑/启动。基于吞吐预测的 ABR 因 on-off 下载等原因不可靠；BBA 改用缓冲区水位这个稳健可观测量直接决定码率，大减卡顿；Pensieve 干脆用强化学习端到端优化 QoE、自适应各种网络，代表了"学习型 ABR"。

Lec 17 视频流（Video Streaming / ABR） ​

总览 ​

一、ABR 问题与 QoE ​

二、基于吞吐预测的 ABR 为什么脆弱 ​

三、BBA：直接用缓冲区水位决定码率 ​

四、Pensieve：用强化学习自学 ABR ​

五、论文重点 ​

本讲小结 ​