章节 01
【导读】IPO-Mine:长文本多模态IPO文档分析工具包与数据集发布
本文介绍IPO-Toolkit开源框架和IPO-Dataset数据集,该数据集涵盖1994年至2026年间超过10.9万份IPO申报文件及修正案,包含超过7.6万张图像。研究揭示当前多模态模型在处理超长监管文档时与人类专家判断存在显著差异,为金融文档的多模态推理研究提供重要基准。
正文
本文介绍IPO-Toolkit开源框架和IPO-Dataset数据集,该数据集涵盖1994年至2026年间超过10.9万份IPO申报文件及修正案,包含超过7.6万张图像。研究揭示了当前多模态模型在处理超长监管文档时与人类专家判断存在显著差异,为金融文档的多模态推理研究提供了重要基准。
章节 01
本文介绍IPO-Toolkit开源框架和IPO-Dataset数据集,该数据集涵盖1994年至2026年间超过10.9万份IPO申报文件及修正案,包含超过7.6万张图像。研究揭示当前多模态模型在处理超长监管文档时与人类专家判断存在显著差异,为金融文档的多模态推理研究提供重要基准。
章节 02
IPO申报文件是私营公司上市时披露的重要文档,涵盖业务模式、财务状况等关键信息,但存在超长(常超50万token)、多模态、结构不统一的挑战。尽管大模型在文档理解上进展显著,但IPO领域缺乏大规模标准化数据集和评测基准,限制了模型评估与改进。
章节 03
章节 04
基于IPO-Dataset的评测任务聚焦金融图表质量评估和误导性检测,结果显示:当前最先进的多模态模型在这些任务中的判断与人类专家存在显著差异,暴露了模型在理解长文本监管文档时的对齐挑战。
章节 05
IPO-Dataset支持以下研究方向:
章节 06
研究团队将代码、数据集等资源以CC-BY-4.0许可开源,有助于:
章节 07