章节 01
【主楼/导读】顶级推理模型上下文窗口填充性能衰退研究核心概述
本研究针对Anthropic、OpenAI、Google、DeepSeek四大厂商的顶级推理模型开展控制实验,揭示当上下文窗口被相邻但无关信息填充时,即使模型处于最大思考设置下也会出现性能衰退现象。研究聚焦财务分析领域,通过五臂对照实验分析各模型的漂移特征,并探讨其对AI应用(如RAG系统)的启示。
正文
一项针对Anthropic、OpenAI、Google、DeepSeek四大厂商顶级推理模型的控制实验,揭示了当上下文窗口被相邻但无关信息填充时,模型即使在最大思考设置下也会出现性能衰退的现象。
章节 01
本研究针对Anthropic、OpenAI、Google、DeepSeek四大厂商的顶级推理模型开展控制实验,揭示当上下文窗口被相邻但无关信息填充时,即使模型处于最大思考设置下也会出现性能衰退现象。研究聚焦财务分析领域,通过五臂对照实验分析各模型的漂移特征,并探讨其对AI应用(如RAG系统)的启示。
章节 02
随着大型语言模型在复杂推理任务中的应用普及,研究者关注上下文窗口被大量信息填充时的推理能力变化。Victor-EU团队开展"Reasoning Drift Study"实验,选择财务分析领域(融合事实检索、数值计算等综合能力),以微软FY2025财报+科技同行数据(苹果、谷歌等)作为噪音语料模拟信息过载场景。
章节 03
采用五臂对照实验架构,涉及5个模型:Anthropic Opus4.7/Sonnet4.6(effort=max)、OpenAI GPT5.5(reasoning.effort=xhigh)、Google Gemini3.1Pro(thinking_level=HIGH)、DeepSeek V4Pro(reasoning_effort=max)。实验严格控制变量(方法论、提示词等恒定),并通过完整性门控机制(SHA-256级别)确保可重复性。
章节 04
各模型表现出差异化漂移特征:1. Opus4.7单调递减+幻觉问题;2. Sonnet4.6质量恢复现象;3. GPT5.5平坦-悬崖模式(92%填充后急剧下降,幻觉率近0);4. Gemini3.1Pro最平坦漂移+速度优势;5. DeepSeek V4Pro绝对-成对悖论(绝对评估平坦,成对比较陡峭,跨评判者一致性高)。
章节 05
零噪音条件下,Anthropic评判者排名为Sonnet4.6 > Opus4.7 > GPT5.5 > DeepSeek V4Pro > Gemini3.1Pro(Spearmanρ=0.943),与绝对评判基线(Opus第一)形成对比,提示不同评估方式影响排名结果。
章节 06
章节 07
局限性:排除Haiku4.5(200K窗口+未验证effort=max引入混淆变量)。未来方向:探索非财务领域漂移特征、更长上下文窗口影响、缓解漂移策略。
章节 08
本研究为理解顶级推理模型在复杂信息环境下的行为提供实证数据,各模型差异化漂移特征反映厂商设计哲学,为模型选择和系统设计提供参考。随着上下文窗口扩大,此类研究将更重要。