正文

当经典控制论遇上LLM推理：一场关于延迟、队列与GPU的11章探索

一个独特的学习项目将经典控制理论应用于LLM推理服务系统，通过11个章节的迭代实验，从仿真到真实GPU，揭示了控制设计中最重要的真理：理解被控对象比控制律本身更重要。

经典控制理论LLM推理服务延迟控制队列管理级联控制PI控制器系统辨识GPU调度TTFT优化负载均衡

发布时间 2026/05/18 01:45最近活动 2026/05/18 01:50预计阅读 3 分钟

章节 01

导读：经典控制论与LLM推理服务的跨界探索核心

该项目将经典控制理论应用于LLM推理服务系统，通过11章迭代实验（3个成功控制器、8个失败案例）及真实GPU闭环TTFT调节器，揭示核心真理：理解被控对象比控制律本身更重要。项目覆盖从仿真到Modal云平台NVIDIA T4 GPU的全流程。

章节 02

项目背景：从仿真到真实GPU的探索旅程

项目起点为用经典控制管理LLM推理延迟与队列的问题，工具选择MATLAB和Python。从纯仿真逐步过渡到Ollama本地部署、vLLM Apple Silicon版本，最终到Modal云平台NVIDIA T4 GPU。每章结构：具体控制架构设计→特定环境实现→实验结果分析→失败原因剖析。

章节 03

成功案例：有效的控制实现

成功章节包括：1.单回路LQR+极点配置（仿真验证可行性）；2.级联控制架构（仿真中内环控批次大小到队列深度，外环控队列参考值到p95延迟）；4.Ollama单回路积分控制（真实硬件首次成功，批大小通过GPU并发度控TTFT）；9.级联控制在低层级GPU批处理工厂（Modal T4上找到正确抽象层：精确批次执行器、真实积压队列、测量GPU服务时间）；11.闭环TTFT控制器（速度型PI，设定点200/350/500ms偏差±5ms内，抑制负载阶跃扰动）。

章节 04

失败教训：关键认知突破

8个失败章节的核心教训：2a章（积分应基于测量值而非模型预测）；3章（级联内环调节不存在的队列变量）；5章（依赖指标前需验证正确性）；6章（硬件调度行为影响控制架构有效性）；7章（云环境抽象层引入信号噪声）；8章（控制律应用于错误抽象层）；10章（正确被控变量是TTFT，执行器为到达速率计量）。

章节 05

架构演进与工具链

架构演进：1-2章纯仿真（MATLAB→llm_plant.m）；3-4章真实硬件（MATLAB/Simulink→Ollama HTTP→Apple Silicon GPU）；6章真实队列服务器（MATLAB→queue_server.py→Ollama→CPU）；7-9章Modal远程GPU（MATLAB→Modal包装器/vLLM→NVIDIA GPU）；11章闭环TTFT控制器（run_load_step.py→Modal包装器→vLLM/Qwen→T4，PI参数kp=0.03、ki=0.002，周期0.1s）。工具链：MATLAB R2024b+、Control System Toolbox、Python3.11+、Modal、Ollama、vLLM。

章节 06

核心洞察：控制的本质与结论

核心洞察：控制律本身从未出错，问题在于应用于错误抽象层。现代LLM服务的高层API抽象隐藏底层信号（如聚合延迟、无效队列指标）。关键结论：测量先于建模——需通过实验理解系统真实行为；控制工程是科学（数学模型、理论）与艺术（抽象层、变量选择）的结合。

章节 07

工程与研究启示

对LLM服务开发者：暴露底层信号、提供背压机制、验证指标正确性；对控制工程师：先表征被控对象、选择正确抽象层、从简单控制开始；对研究者：失败案例价值、跨学科思维、实验驱动。项目代码可复现，链接：https://github.com/hari-vasudevan/llm-serving-control，博客：https://vasudevanhari.substack.com/。