章节 01
【导读】本地大语言模型实践指南核心概览
这份个人笔记记录如何在本地环境完整运行、微调和部署大语言模型,涵盖llama.cpp、Ollama、MLX等主流工具,以及RAG、模型合并、安全护栏等进阶话题。为开发者提供可复用的实践路径,尤其针对Apple Silicon平台用户验证了推理性能,核心价值在于赋予用户对模型的完全控制权,避免依赖商业API。
正文
一份详实的个人笔记,记录如何在本地环境中完整运行、微调和部署大语言模型,涵盖llama.cpp、Ollama、MLX等主流工具,以及RAG、模型合并、安全护栏等进阶话题。
章节 01
这份个人笔记记录如何在本地环境完整运行、微调和部署大语言模型,涵盖llama.cpp、Ollama、MLX等主流工具,以及RAG、模型合并、安全护栏等进阶话题。为开发者提供可复用的实践路径,尤其针对Apple Silicon平台用户验证了推理性能,核心价值在于赋予用户对模型的完全控制权,避免依赖商业API。
章节 02
随着LLM能力演进,开发者希望在本地完成微调、RAG系统开发等任务,无需依赖GPT等商业API。推动本地部署的核心因素包括数据隐私、成本控制、网络延迟及可定制性。作者在Apple Silicon平台验证了可观的推理性能,为同类硬件用户提供参考。
章节 03
推理引擎:Ollama(开箱即用)、llama.cpp(底层控制);模型转换:llama.cpp支持将Hugging Face模型转为.gguf格式,通过量化(如Q4_K_M)降低显存占用;微调框架:MLX(Apple机器学习框架)支持LoRA微调;模型来源:Hugging Face Hub提供完整模型或预量化GGUF版本。
章节 04
在Apple M3 Max(128GB统一内存)上:DeepSeek-R1 671B Q4_K_M达16.64 tokens/秒,DeepSeek-V3.1 671B Q4_K_M达16.37 tokens/秒。671B参数量模型通过量化和统一内存架构,个人工作站可承载且速度可用;M3 Ultra(512GB内存)进一步拓展模型上限。
章节 05
多模态:Stable Diffusion图像生成,ComfyUI集成Qwen-image-edit/Qwen2.5-VL图像编辑;RAG系统:提供可信事实与溯源,用IBM Granite Guardian等安全模型检测风险;模型合并与Agent:Mergekit合并模型,CrewAI构建Agent框架;K8s集成:探索k8sgpt-operator等,开发AIChat Workspace Operator模拟LLM即服务。
章节 06
提示工程vs微调:提示工程资源低、跨版本复用;微调需更多资源但获深层领域能力。系统提示词:收集Claude 3.5 Sonnet官方提示等,Ollama Modelfile简化自定义模型创建。关键指标:延迟(TTFT,首token时间)影响响应速度;吞吐量(TPOT,每输出token时间)影响流畅度,需权衡选择模型与量化级别。
章节 07
风险:幻觉、偏见、安全漏洞;优势:透明性、可微调性、社区支持、数据隐私(模型本地运行,数据不离开设备)。专业领域应用案例:NASA与IBM合作、医疗健康应用、FinGPT金融模型等。
章节 08
这份笔记是实践经验总结,为开发者提供验证路线图:从工具选型到微调、RAG、安全护栏等高级话题。本地部署不可替代:赋予用户完全控制权,让AI成为基础设施而非外部依赖。