正文

LightVLMInvoice：纯本地视觉大模型文档信息提取系统，保障数据隐私

基于本地部署VLM的发票/文档结构化信息提取系统，采用前后端分离架构和异步任务队列，支持多页PDF自动解析，所有推理均在本地完成，确保业务数据隐私安全。

LightVLMInvoice视觉大模型文档信息提取发票识别本地部署VLM隐私保护vLLMOCR结构化数据

发布时间 2026/04/01 12:11最近活动 2026/04/01 12:22预计阅读 2 分钟

章节 01

【导读】LightVLMInvoice：纯本地视觉大模型文档信息提取系统核心介绍

LightVLMInvoice是基于本地部署视觉大语言模型（VLM）的文档/发票结构化信息提取系统，采用前后端分离+异步任务队列架构，支持多页PDF自动解析，所有推理均在本地完成，核心设计理念为"隐私优先"，解决传统云服务API带来的敏感数据隐私与合规风险问题。

章节 02

数字化转型中企业需处理海量纸质/电子文档（发票、合同、报表等），传统方案依赖云服务API，敏感业务数据外发导致不可忽视的隐私与合规风险。LightVLMInvoice以本地部署VLM为核心，提供完全离线的文档解析方案，平衡AI效率与数据安全。

章节 03

前后端分离架构：前端采用React+Vite+TypeScript+TailwindCSS；后端基于FastAPI，搭配Celery+Redis实现异步任务调度；
推理引擎：使用vLLM部署本地VLM（默认量化模型cyankiwi/Qwen3.5-2B-AWQ-BF16-INT8，低显存占用）；
容错机制：通过json_repair库自动修复模型输出的JSON语法错误，保障数据有效性。

章节 04

章节 05

章节 06

适用于财务发票处理（提取号码、金额等）、合同文档解析（关键条款、签约方）、证件信息录入（身份证/营业执照）、报表数据提取（表格转结构化格式）等场景。

章节 07

章节 08