章节 01
导读:用时间图约束验证LLM时间推理的结构化评估方法
爱丁堡大学MSci学位论文项目提出一种四层评估框架(预测、验证、评分、报告),将大语言模型的时间推理输出转换为时间图进行结构化验证,支持BEFORE/AFTER/SIMULTANEOUS/UNKNOWN四种时间关系标签。该方法既关注预测与标准答案的一致性,也能检测推理过程中的内在矛盾,为LLM时间推理能力评估提供新范式。
正文
爱丁堡大学MSci学位论文项目,提出四层评估框架(预测、验证、评分、报告),将大语言模型的时间推理输出转换为时间图进行结构化验证,支持BEFORE/AFTER/SIMULTANEOUS/UNKNOWN关系标签。
章节 01
爱丁堡大学MSci学位论文项目提出一种四层评估框架(预测、验证、评分、报告),将大语言模型的时间推理输出转换为时间图进行结构化验证,支持BEFORE/AFTER/SIMULTANEOUS/UNKNOWN四种时间关系标签。该方法既关注预测与标准答案的一致性,也能检测推理过程中的内在矛盾,为LLM时间推理能力评估提供新范式。
章节 02
大语言模型在自然语言理解任务中表现出色,但时间推理可靠性存疑。时间推理涉及事件先后、持续、重叠关系,对文档摘要、问答等应用至关重要。现有评估方法仅关注最终答案正确性,忽视推理过程内在一致性。本项目提出将LLM时间推理输出转为时间图,通过时序逻辑约束进行结构化验证,解决这一问题。
章节 03
项目核心为四层架构:
章节 04
项目技术亮点包括:
章节 05
项目遵循严格可复现标准:
章节 06
该工作的意义与前景:
章节 07
当前验证器为LTL模型检验器的实用子集,未来方向包括: