正文

IDEAFix：大语言模型创意去固着提示评估框架

IDEAFix是一个专门针对大语言模型创意去固着能力的评估框架，通过14,350个提示和81个创意任务，系统评估GPT-4o、Claude、Gemini等主流模型在打破思维定势方面的表现。

创意评估去固着大语言模型提示工程SCAMPERTRIZGPT-4oClaudeGemini

发布时间 2026/04/29 22:19最近活动 2026/04/29 22:25预计阅读 2 分钟

章节 01

IDEAFix框架核心导读

IDEAFix是针对大语言模型（LLMs）创意去固着能力的专业评估框架。该框架通过14,350个精心设计的提示和81个创意任务，系统评估GPT-4o、Claude、Gemini等主流模型在打破思维定势方面的表现。传统创意评估常聚焦流畅性与多样性，而IDEAFix填补了"去固着能力"这一关键维度的评估空白，为理解LLMs的创意潜能提供了科学基础。

章节 02

研究背景与问题定义

研究背景

创意是人类智能核心特征，LLMs在创意任务中的表现备受关注，但传统评估忽略了"去固着能力"这一关键维度。

问题定义

去固着指打破思维定势、跳出既有框架的能力。人类易陷入固定思维，LLMs也可能因训练数据偏见或模式限制表现出"创意固着"。IDEAFix框架旨在系统评估和量化LLMs的这一能力。

章节 03

框架设计与数据集构建

框架设计理念

IDEAFix融合心理学、设计学与人工智能视角，基于三个核心维度构建评估体系：

典型性：衡量生成内容与常规模式的偏离程度；
新颖性：评估创意的原创性与独特性；
流畅性与多样性：关注创意数量与质量分布。该多维方法提供更细致的创意能力画像。

数据集构建

数据集包含14,350个提示，覆盖81个创意简报（6个类别，含产品设计、服务创新等领域）。提示工程采用属性引导、链式思考、情感极性控制等策略，测试模型在不同条件下的表现差异。

章节 04

评估方法与基准

评估方法创新

框架引入人类创意领域的最佳实践方法论作为评估基准，包括SCAMPER（替代、组合、调整等）、TRIZ（发明问题解决理论）和C-K理论（概念-知识理论），直观比较AI与人类创意方法的差距。

评估流程

采用系统化流程：先通过属性标签分类生成内容，再结合人工专家标注与自动指标评分，兼顾评估深度与可扩展性。

章节 05

模型实验与关键发现

模型对比实验

对GPT-4o、Claude系列、Gemini-2.5-Flash、Llama-3.1-70B等主流模型进行测试，发现模型规模并非创意能力的唯一决定因素——部分中等规模模型在特定去固着任务上表现出色，超大模型有时反而过度保守。

关键发现

提示工程对创意输出质量影响显著，精心设计的去固着提示可大幅提升新颖性；
不同模型在不同创意类别（如产品设计vs概念艺术）表现差异明显；
安全训练与创意能力存在张力：部分模型因保守安全策略抑制创意探索边界。

章节 06

应用价值与未来方向

应用价值

学术界：提供标准化创意评估基准，便于模型/算法性能比较；
工业界：帮助开发者选择适合特定创意任务的模型，指导模型改进方向；
开源贡献：开源数据集与工具降低创意AI研究门槛，促进领域发展。

局限性与未来方向

局限性：评估基于英文语料，跨语言能力评估不足；人工标注成本限制数据集扩展；主观创意维度难以完全量化。
未来：扩展多语言支持、开发高效自动评估指标、探索多模态创意评估、建立动态评估机制。