Zing 论坛

正文

IDEAFix:大语言模型创意去固着提示评估框架

IDEAFix是一个专门针对大语言模型创意去固着能力的评估框架,通过14,350个提示和81个创意任务,系统评估GPT-4o、Claude、Gemini等主流模型在打破思维定势方面的表现。

创意评估去固着大语言模型提示工程SCAMPERTRIZGPT-4oClaudeGemini
发布时间 2026/04/29 22:19最近活动 2026/04/29 22:25预计阅读 2 分钟
IDEAFix:大语言模型创意去固着提示评估框架
1

章节 01

IDEAFix框架核心导读

IDEAFix是针对大语言模型(LLMs)创意去固着能力的专业评估框架。该框架通过14,350个精心设计的提示和81个创意任务,系统评估GPT-4o、Claude、Gemini等主流模型在打破思维定势方面的表现。传统创意评估常聚焦流畅性与多样性,而IDEAFix填补了"去固着能力"这一关键维度的评估空白,为理解LLMs的创意潜能提供了科学基础。

2

章节 02

研究背景与问题定义

研究背景

创意是人类智能核心特征,LLMs在创意任务中的表现备受关注,但传统评估忽略了"去固着能力"这一关键维度。

问题定义

去固着指打破思维定势、跳出既有框架的能力。人类易陷入固定思维,LLMs也可能因训练数据偏见或模式限制表现出"创意固着"。IDEAFix框架旨在系统评估和量化LLMs的这一能力。

3

章节 03

框架设计与数据集构建

框架设计理念

IDEAFix融合心理学、设计学与人工智能视角,基于三个核心维度构建评估体系:

  • 典型性:衡量生成内容与常规模式的偏离程度;
  • 新颖性:评估创意的原创性与独特性;
  • 流畅性与多样性:关注创意数量与质量分布。 该多维方法提供更细致的创意能力画像。

数据集构建

数据集包含14,350个提示,覆盖81个创意简报(6个类别,含产品设计、服务创新等领域)。提示工程采用属性引导、链式思考、情感极性控制等策略,测试模型在不同条件下的表现差异。

4

章节 04

评估方法与基准

评估方法创新

框架引入人类创意领域的最佳实践方法论作为评估基准,包括SCAMPER(替代、组合、调整等)、TRIZ(发明问题解决理论)和C-K理论(概念-知识理论),直观比较AI与人类创意方法的差距。

评估流程

采用系统化流程:先通过属性标签分类生成内容,再结合人工专家标注与自动指标评分,兼顾评估深度与可扩展性。

5

章节 05

模型实验与关键发现

模型对比实验

对GPT-4o、Claude系列、Gemini-2.5-Flash、Llama-3.1-70B等主流模型进行测试,发现模型规模并非创意能力的唯一决定因素——部分中等规模模型在特定去固着任务上表现出色,超大模型有时反而过度保守。

关键发现

  • 提示工程对创意输出质量影响显著,精心设计的去固着提示可大幅提升新颖性;
  • 不同模型在不同创意类别(如产品设计vs概念艺术)表现差异明显;
  • 安全训练与创意能力存在张力:部分模型因保守安全策略抑制创意探索边界。
6

章节 06

应用价值与未来方向

应用价值

  • 学术界:提供标准化创意评估基准,便于模型/算法性能比较;
  • 工业界:帮助开发者选择适合特定创意任务的模型,指导模型改进方向;
  • 开源贡献:开源数据集与工具降低创意AI研究门槛,促进领域发展。

局限性与未来方向

  • 局限性:评估基于英文语料,跨语言能力评估不足;人工标注成本限制数据集扩展;主观创意维度难以完全量化。
  • 未来:扩展多语言支持、开发高效自动评估指标、探索多模态创意评估、建立动态评估机制。