章节 01
导读:经典控制论与LLM推理服务的跨界探索核心
该项目将经典控制理论应用于LLM推理服务系统,通过11章迭代实验(3个成功控制器、8个失败案例)及真实GPU闭环TTFT调节器,揭示核心真理:理解被控对象比控制律本身更重要。项目覆盖从仿真到Modal云平台NVIDIA T4 GPU的全流程。
正文
一个独特的学习项目将经典控制理论应用于LLM推理服务系统,通过11个章节的迭代实验,从仿真到真实GPU,揭示了控制设计中最重要的真理:理解被控对象比控制律本身更重要。
章节 01
该项目将经典控制理论应用于LLM推理服务系统,通过11章迭代实验(3个成功控制器、8个失败案例)及真实GPU闭环TTFT调节器,揭示核心真理:理解被控对象比控制律本身更重要。项目覆盖从仿真到Modal云平台NVIDIA T4 GPU的全流程。
章节 02
项目起点为用经典控制管理LLM推理延迟与队列的问题,工具选择MATLAB和Python。从纯仿真逐步过渡到Ollama本地部署、vLLM Apple Silicon版本,最终到Modal云平台NVIDIA T4 GPU。每章结构:具体控制架构设计→特定环境实现→实验结果分析→失败原因剖析。
章节 03
成功章节包括:1.单回路LQR+极点配置(仿真验证可行性);2.级联控制架构(仿真中内环控批次大小到队列深度,外环控队列参考值到p95延迟);4.Ollama单回路积分控制(真实硬件首次成功,批大小通过GPU并发度控TTFT);9.级联控制在低层级GPU批处理工厂(Modal T4上找到正确抽象层:精确批次执行器、真实积压队列、测量GPU服务时间);11.闭环TTFT控制器(速度型PI,设定点200/350/500ms偏差±5ms内,抑制负载阶跃扰动)。
章节 04
8个失败章节的核心教训:2a章(积分应基于测量值而非模型预测);3章(级联内环调节不存在的队列变量);5章(依赖指标前需验证正确性);6章(硬件调度行为影响控制架构有效性);7章(云环境抽象层引入信号噪声);8章(控制律应用于错误抽象层);10章(正确被控变量是TTFT,执行器为到达速率计量)。
章节 05
架构演进:1-2章纯仿真(MATLAB→llm_plant.m);3-4章真实硬件(MATLAB/Simulink→Ollama HTTP→Apple Silicon GPU);6章真实队列服务器(MATLAB→queue_server.py→Ollama→CPU);7-9章Modal远程GPU(MATLAB→Modal包装器/vLLM→NVIDIA GPU);11章闭环TTFT控制器(run_load_step.py→Modal包装器→vLLM/Qwen→T4,PI参数kp=0.03、ki=0.002,周期0.1s)。工具链:MATLAB R2024b+、Control System Toolbox、Python3.11+、Modal、Ollama、vLLM。
章节 06
核心洞察:控制律本身从未出错,问题在于应用于错误抽象层。现代LLM服务的高层API抽象隐藏底层信号(如聚合延迟、无效队列指标)。关键结论:测量先于建模——需通过实验理解系统真实行为;控制工程是科学(数学模型、理论)与艺术(抽象层、变量选择)的结合。
章节 07
对LLM服务开发者:暴露底层信号、提供背压机制、验证指标正确性;对控制工程师:先表征被控对象、选择正确抽象层、从简单控制开始;对研究者:失败案例价值、跨学科思维、实验驱动。项目代码可复现,链接:https://github.com/hari-vasudevan/llm-serving-control,博客:https://vasudevanhari.substack.com/。