Zing 论坛

正文

常识驱动的Transformer微调:让大语言模型生成更连贯的故事

一个NLP与生成式AI系统,使用LoRA技术微调3个大语言模型,结合常识推理能力完成短篇故事生成,在ROCStories数据集上训练并采用BLEU、ROUGE、BERTScore和困惑度等指标评估。

大语言模型LoRA微调常识推理故事生成Transformer生成式AINLPROCStories
发布时间 2026/06/13 06:41最近活动 2026/06/13 06:57预计阅读 3 分钟
常识驱动的Transformer微调:让大语言模型生成更连贯的故事
1

章节 01

导读:常识驱动的Transformer微调提升故事生成连贯性

原作者/维护者: nithin-jella 来源平台: GitHub 原始标题: Commonsense-Driven-Fine-Tuning-of-Transformer-Models-for-Coherent-Story-Generation 原始链接: https://github.com/nithin-jella/Commonsense-Driven-Fine-Tuning-of-Transformer-Models-for-Coherent-Story-Generation 发布时间: 2026-06-12

本项目针对大语言模型生成长篇故事时存在的逻辑断裂、常识违背等问题,提出通过LoRA技术微调3个不同架构的大语言模型,结合常识推理能力,在ROCStories数据集上训练,并采用BLEU、ROUGE、BERTScore和困惑度等指标评估,旨在生成更连贯、合理的短篇故事。

2

章节 02

研究背景与动机

大语言模型在文本生成方面能力突出,但生成长篇连贯故事时常出现逻辑断裂、情节不合理、人物行为违背常识等问题。根源在于模型主要学习文本表面统计规律,缺乏深层因果逻辑和常识知识。例如,模型可能生成"小明把冰块放入热茶中,冰块变得更大"这类违背物理常识的句子。本项目旨在通过注入常识推理能力,解决这些问题,提升故事生成的连贯性与合理性。

3

章节 03

技术方案:LoRA微调与常识融入

模型选择与微调策略

选择3个代表性大语言模型(不同架构和规模)进行对比,验证方法通用性。采用LoRA(低秩适应)参数高效微调,优势包括:计算效率高(仅训练少量低秩矩阵)、存储成本低、推理开销小、避免灾难性遗忘。

常识推理融入

  • 常识知识来源: 利用现有常识知识库和推理数据集提供物理、社会规范、因果关系等先验知识。
  • 训练数据: 基于ROCStories数据集(五句话短篇故事,人工验证符合常识)构建训练样本。
  • 损失函数: 标准语言建模损失基础上,可能引入常识一致性辅助损失,实现多目标优化。
4

章节 04

评估体系:多维度衡量生成质量

自动评估指标

  • BLEU: 衡量生成文本与参考文本的n-gram重叠度,反映词汇相似性。
  • ROUGE: 侧重召回率,ROUGE-L捕捉文本流畅性和结构相似性。
  • BERTScore: 基于预训练模型embeddings的语义相似度,贴近人类判断。
  • 困惑度: 反映模型对生成内容的信心,低困惑度意味着流畅性和语法正确性更好。

常识一致性评估

  • 人工评估: 人类评委判断逻辑合理性和常识符合度。
  • 对抗性测试: 设计测试用例检验是否避免常识违背内容。
  • 对比实验: 与未常识增强的基线模型对比。
5

章节 05

实验结果与关键发现

虽无具体数值,但可推断:

  1. 常识增强有效: 微调后模型保持语言流畅性,逻辑一致性显著提升。
  2. LoRA适用性: 验证LoRA在常识推理任务上的有效性,降低实验门槛。
  3. 多模型对比: 分析模型架构、规模与常识推理能力的关系,为未来优化提供参考。
6

章节 06

应用场景与潜在价值

  • 创意写作辅助: 为作者提供AI助手,生成逻辑合理的故事框架、情节转折等。
  • 教育内容生成: 自动生成符合科学常识的教育故事,支持个性化学习材料规模化生产。
  • 对话系统增强: 提升聊天机器人长文本生成能力,保持逻辑一致。
  • 游戏叙事设计: 为开放世界游戏生成动态剧情,确保NPC行为和物理规则一致。
7

章节 07

局限性与未来方向

  • 常识覆盖: 当前知识库主要覆盖物理和社会规范,专业领域知识有限,需扩展广度和深度。
  • 文化差异: 常识具有文化相对性,需适配多语言、多文化场景。
  • 计算效率: 推理仍需高资源,可通过模型压缩、量化等提升实用性。
  • 评估挑战: 自动指标与人类判断存在差距,需开发更好的常识一致性自动评估方法。
8

章节 08

总结与启示

本项目代表NLG领域向更智能、合理方向演进的重要尝试,强调语言模型需生成符合现实逻辑的内容。其技术路线(参数高效微调配常识注入)为资源有限的研究者提供可行路径。对开发者的启示:大模型应用需针对特定需求(如常识一致性)优化,"通用基础+专项增强"或为主流范式。未来多模态、世界模型技术有望进一步提升常识推理能力,实现更智能的AI故事生成。