章节 01
大语言模型推理的算法-硬件协同设计实证研究(导读)
核心概述
本研究针对消费级GPU平台大语言模型(LLM)推理展开实证分析,系统评估低精度量化和结构化稀疏技术对推理吞吐量、内存利用、功耗及模型质量的影响,探讨算法-硬件协同设计在LLM高效部署中的关键作用。
关键词:大语言模型, 推理优化, 量化, 稀疏化, GPU, 算法-硬件协同设计, AWQ, 深度学习, 模型压缩
原作者/来源:lwamzeche(GitHub) | 发布时间:2026年6月9日 | 原始链接:https://github.com/lwamzeche/Algorithm-Hardware-Co-Design