章节 01
【导读】DocFormFlow:基于LLM的智能文档格式化系统与DocFormBench评测基准
本文介绍DocFormFlow,一种将文档格式化任务解耦为"定位目标"与"执行修改"两阶段的工作流方法,配套发布DocFormBench评测基准,在多个大语言模型和多模态模型上验证了其提升准确率并降低Token消耗的效果。原论文来源为arXiv,发布时间2026年6月1日,链接http://arxiv.org/abs/2606.01936v1。
正文
本文介绍 DocFormFlow,一种将文档格式化任务解耦为"定位目标"与"执行修改"两阶段的工作流方法,配套发布 DocFormBench 评测基准,在多个大语言模型和多模态模型上验证了其提升准确率并降低 Token 消耗的效果。
章节 01
本文介绍DocFormFlow,一种将文档格式化任务解耦为"定位目标"与"执行修改"两阶段的工作流方法,配套发布DocFormBench评测基准,在多个大语言模型和多模态模型上验证了其提升准确率并降低Token消耗的效果。原论文来源为arXiv,发布时间2026年6月1日,链接http://arxiv.org/abs/2606.01936v1。
章节 02
随着大语言模型(LLM)能力的飞速提升,自动化文档处理已成为充满潜力的应用领域。但真实场景需根据文档内容语义调整格式(如法律合同的违约条款加粗、学术论文参考文献编号样式调整),核心难点是"模型必须先理解哪里需要改,才能决定怎么改"。内容感知的格式化长期缺乏系统性评测基准,导致相关研究难以横向对比和持续推进。
章节 03
为填补空白,研究团队推出DocFormBench——针对内容感知格式化场景设计的评测数据集。涵盖结构层级调整(标题字体大小/缩进)、语义高亮(关键词加粗/斜体)、列表格式化(平铺文本转有序/无序列表)、表格对齐(单元格对齐)等真实场景需求。除准确率外,引入效率指标(Token消耗),反映实际部署成本考量。
章节 04
针对现有方法反复读取文档导致Token浪费问题,提出DocFormFlow,将格式化任务解耦为两阶段:
章节 05
在GPT-4、Claude系列、多模态模型上评测,结果显示DocFormFlow相比基线有显著提升:
| 模型类型 | 准确率提升 | Token消耗降低 |
|---|---|---|
| GPT-4 | +12% | -35% |
| Claude-3 | +15% | -28% |
| 多模态模型 | +18% | -42% |
| 精确目标定位是影响格式化性能的首要因素,准确识别目标边界可显著提高后续修改成功率。 |
章节 06
DocFormFlow和DocFormBench为文档智能处理领域提供新工具和评测标准。潜在应用场景:
章节 07
核心启示:复杂文档处理中,显式任务分解优于端到端黑盒方案,分离"理解"与"执行"提升性能、可解释性和可控性。 未来研究方向: