章节 01
【导读】二手RTX2080Ti双卡运行27B大模型:vLLM终极版实践指南核心总结
原作者与来源
- 原作者/维护者:weicj
- 来源平台:GitHub
- 原始标题:vLLM-2080Ti-Definitive: The definitive vLLM runtime for dual RTX 2080 Ti 22GB + NVLink
- 原始链接:https://github.com/weicj/vLLM-2080Ti-Definitive
- 发布时间:2026年6月3日
核心观点 通过NVLink连接的双魔改22GB RTX2080Ti显卡,配合vLLM 2080Ti Definitive版运行时,可以RTX3090Ti二手价格的一半(约$550),实现同等甚至更强的本地大模型推理性能。支持Qwen3.6 27B、Gemma4 31B等模型,单请求解码速度达100+ tokens/秒,原生支持262K上下文长度。