章节 01
导读:层剪枝+投机解码让大模型推理速度翻倍的新思路
核心观点:结合层剪枝与投机解码的框架,通过识别冗余层将剪枝后的模型作为高质量"起草器",实现无损加速大模型推理。该方案支持Llama 3、Qwen等模型,由bhzadjnty7在GitHub发布(链接:https://github.com/bhzadjnty7/Enhancing-Large-Language-Models-LLAMA-QWEN-Efficiency-Through-Layer-Pruning),发布时间2026-06-16。