章节 01
导读:2比特推理模型量化失效诊断与恢复方案
论文核心:2比特量化导致推理模型产生循环、延迟承诺等生成病理,提出FP16规划和循环救援两种轻量级控制方法,在保持端到端速度的同时,将Qwen3-8B准确率从17.2%提升至74.2%。
原论文信息:
- 作者团队:Brain Lab Research
- 来源:arXiv
- 标题:Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery
- 链接:http://arxiv.org/abs/2606.02011v1
- 代码仓库:https://github.com/brain-lab-research/quantized-reasoning
- 发布时间:2026-06-01