章节 01
导读:WordPress 7.0 浏览器端 AI 推理方案核心解析
ultimate-ai-connector-webllm 是 WordPress 7.0+ 开源插件,通过 WebLLM 与 WebGPU 实现浏览器端 LLM 推理。用户桌面 GPU 作为私人模型服务器,无需云端 API、密钥或 token 费用,数据本地处理保障隐私,WordPress 仅承担请求中转站角色。
正文
ultimate-ai-connector-webllm 是一个 WordPress 7.0+ 插件,它让大型语言模型的推理完全在用户的浏览器中通过 WebGPU 运行。无需 API 密钥、无需云端服务、无需按 token 付费——你的桌面 GPU 就是模型服务器,而 WordPress 站点只负责转发请求。
章节 01
ultimate-ai-connector-webllm 是 WordPress 7.0+ 开源插件,通过 WebLLM 与 WebGPU 实现浏览器端 LLM 推理。用户桌面 GPU 作为私人模型服务器,无需云端 API、密钥或 token 费用,数据本地处理保障隐私,WordPress 仅承担请求中转站角色。
章节 02
传统 WordPress AI 插件依赖第三方云端 API,存在三大痛点:隐私风险(内容/数据外发)、成本问题(token 计费随使用量增长)、强依赖性(API 中断或调价影响工作流。浏览器端方案将模型下载到本地,数据不离开设备,解决上述问题,还能利用闲置 GPU 资源。
章节 03
流程:1.管理员在桌面浏览器打开 Tools→WebLLM Worker 页面加载模型(缓存至 IndexedDB);2.用户提交 AI 请求,PHP SDK 将任务加入队列;3.Worker 标签页轮询队列,本地 GPU 推理后返回结果给 WordPress,再传递至客户端。WordPress 仅负责转发,核心计算在用户浏览器完成。
章节 04
1.WebGPU 与 WebLLM:基于 @mlc-ai/web-llm 库,通过 WebGPU 访问 GPU,Linux 需启用实验性标志,Windows/macOS 开箱即用;2.安全认证:生成 48 字符随机密钥,存储于 webllm_loopback_secret,服务端用 hash_equals 验证;3.DB 优化:绕过 WordPress 缓存,直接用 $wpdb 查询并 COMMIT 确保获取最新任务状态。
章节 05
适合场景:隐私敏感内容处理(摘要、SEO 描述等)、多设备协作(小设备提交,桌面 GPU 处理)、成本敏感个人站点。限制:集成显卡速度慢(每秒几个 token)、单点故障(仅一个 Worker 运行)、无流式输出和视觉-语言模型(VLM)支持。
章节 06
最小实用模型需 4GB 显存,大模型需 8-16GB;无 GPU 时回退到 SwiftShader 但速度极慢。模型来自 @mlc-ai/web-llm 预构建配置(约 140 个),插件仅报告已加载模型确保能力匹配。
章节 07
可配置项:默认模型(未指定时使用)、请求超时(默认 180 秒)、上下文窗口(可设 8192/16384,显存随窗口翻倍)、允许远程客户端(开启后所有登录用户可提交任务)。
章节 08
该插件代表 AI 部署范式转变:将模型带到数据所在处。WebGPU 成熟与模型量化技术使浏览器端推理可行,适合异步任务(内容生成、批量处理)。未来随着技术进步,“浏览器即服务器”或成为 AI 部署常态模式之一。