Zing 论坛

正文

EconBench:用行为经济学实验评估大语言模型的经济理性

EconBench是一个专门用于测试大语言模型经济偏好、理性决策能力的基准工具,通过经典行为经济学实验评估AI在风险、时间和社会互动中的决策表现。

大语言模型经济理性行为经济学基准测试AI评估决策理论开源项目
发布时间 2026/05/08 23:45最近活动 2026/05/08 23:51预计阅读 2 分钟
EconBench:用行为经济学实验评估大语言模型的经济理性
1

章节 01

EconBench:用行为经济学实验评估大语言模型的经济理性

EconBench是一个专门用于测试大语言模型经济偏好、理性决策能力的基准工具,通过经典行为经济学实验评估AI在风险、时间和社会互动中的决策表现。它填补了现有AI基准测试在经济决策能力系统性评估上的空白,帮助理解LLM的决策逻辑和“经济人格”,对模型选型、安全评估、改进及AI对齐研究具有重要意义。

2

章节 02

项目背景与动机

经济理性是决策理论核心概念,指个体在有限信息和资源约束下做出最优选择的能力。传统上经济学家通过实验室实验研究人类经济行为,但现有AI基准多关注语言理解、代码生成等,缺乏对经济决策能力的系统性评估。因此,Josh R. Foster开发了EconBench,将经典行为经济学实验转化为可自动化运行的基准测试。

3

章节 03

核心评估维度

EconBench从三个维度评估LLM经济行为:

  1. 风险与理性:通过Marschak-Machina三角形实验检测是否违反期望效用理论的独立性公理;
  2. 社会偏好:通过独裁者游戏和最后通牒游戏测量利他主义倾向和公平敏感度;
  3. 时间偏好:通过跨期选择实验引出折现率,用Beta-Delta模型检测现时偏见。
4

章节 04

技术实现与架构

EconBench采用Python 3.8+开发,模块化架构包括:

  • 模型注册表:支持OpenAI(GPT-4o等)、Anthropic(Claude系列)、Google(Gemini系列)及开源模型(如Llama-3.1-70B-Instruct);
  • 实验任务脚本independence.py(独立性公理测试)、social.py(社会偏好测试)、time.py(时间偏好测试);
  • 可视化仪表板:运行python3 -m http.server 8000后访问http://localhost:8000/web/可查看结果。
5

章节 05

实际意义与应用场景

EconBench的应用价值包括:

  1. 模型选型:比较不同LLM在经济决策任务的表现;
  2. 安全评估:识别金融决策或资源分配应用中模型的偏见和理性缺陷;
  3. 模型改进:针对性优化训练数据或微调策略;
  4. AI对齐研究:量化工具助力理解模型行为倾向。
6

章节 06

局限性与未来方向

局限性:行为经济学实验基于人类设计,直接应用于AI需额外验证;模型回答受提示词和上下文影响,标准化测试条件是挑战。未来方向:扩展到拍卖、重复博弈等场景;结合真实金融数据集评估模型在市场环境的表现。

7

章节 07

结语

EconBench代表新的AI评估范式,不仅关注语言能力,更探究决策逻辑和“经济人格”。随着AI在商业、金融和政策制定中角色加重,此类工具帮助理解和信任AI决策过程,是值得关注和贡献的开源项目。