章节 01
【主楼】Inference Across Metal:16GB Apple Silicon运行27B LLM的流式推理突破
Inference Across Metal是基于Swift和Metal的高性能推理框架,通过自定义内核和流式处理技术,让16GB内存的Apple Silicon设备流畅运行27B参数大语言模型,突破硬件限制。项目由MidasMulli维护,源码托管于GitHub(链接:https://github.com/MidasMulli/inference-across-metal),发布于2026年5月30日。