Zing 论坛

正文

ADEPT:用大模型评测大模型教学能力的自动化框架

ADEPT 是一个专门评估大语言模型在设计教育场景中教学效果的自动化 Benchmark 框架,通过模拟教师辅导和学生学习的完整流程,量化衡量 AI 辅导对学习效果的提升。

LLMBenchmark教育教学评估AI辅导设计教育自动化评测
发布时间 2026/04/10 16:31最近活动 2026/04/10 16:44预计阅读 10 分钟
ADEPT:用大模型评测大模型教学能力的自动化框架
1

章节 01

导读 / 主楼:ADEPT:用大模型评测大模型教学能力的自动化框架

ADEPT 是一个专门评估大语言模型在设计教育场景中教学效果的自动化 Benchmark 框架,通过模拟教师辅导和学生学习的完整流程,量化衡量 AI 辅导对学习效果的提升。

2

章节 02

背景

ADEPT:用大模型评测大模型教学能力的自动化框架\n\n## 背景:为什么需要评估 AI 的教学能力?\n\n随着大语言模型(LLM)能力的快速提升,越来越多的教育场景开始引入 AI 辅助教学。然而,一个核心问题始终悬而未决:这些 AI 模型真的能有效教学吗?它们生成的辅导内容是否能真正帮助学生理解知识、提升成绩?\n\n传统的模型评测主要关注知识问答能力,比如 MMLU、HumanEval 等 Benchmark 测试的是模型"知道多少"。但在教育场景中,"知道"和"教会"是两个完全不同的能力维度。一个模型可能自己答对题目,却无法用恰当的方式引导学生思考。\n\nADEPT(AI Design Education Performance Test)正是为了填补这一空白而诞生的。它是一个自动化 Benchmark 框架,专门用于评估 LLM 在设计教育场景中的教学效果。\n\n## 核心设计理念:模拟真实教学闭环\n\nADEPT 的设计灵感来源于真实的教学流程。它构建了一个完整的"教师-学生-评判"三角架构:\n\n教师角色(TeacherAPI):基于教学大纲和素材生成辅导内容,但不直接给出答案。这模拟了优秀教师的引导式教学风格。\n\n学生角色(StudentAPI):模拟学生两次作答——第一次是没有任何辅导的基线作答(baseline),第二次是在接受教师辅导后的干预作答(intervention)。\n\n评判角色(RubricScoringAPI):基于评分标准(Rubric)对学生的两次作答进行打分,返回结构化的分数和评价理由。\n\n通过计算干预得分与基线得分的差值(Δ = s_knowledge - s_base),ADEPT 量化了"AI 辅导带来的学习效果提升"。\n\n## 技术架构:模块化与可扩展性\n\nADEPT 的代码架构体现了高度的模块化设计,主要包含以下几个核心组件:\n\n### 1. 多模型支持(LLMClientFactory)\n\n框架内置了对多种主流模型提供商的支持,包括:\n- DeepSeek\n- 通义千问(Qwen)\n- Kimi(Moonshot)\n- OpenAI\n- 任意兼容 OpenAI 协议的自定义端点\n\n这意味着研究者可以灵活配置三个角色使用不同的模型,比如用 DeepSeek 作为教师、Qwen 作为学生、Kimi 作为评判,从而进行跨模型的教学能力对比实验。\n\n### 2. 配置管理(ConfigLoader)\n\n支持通过 YAML 配置文件或环境变量进行灵活配置,配置优先级为:config.yaml → .env → 环境变量。每个角色可以独立配置模型参数、API 密钥和端点地址。\n\n### 3. 并发评测引擎(ADEPTOrchestrator)\n\n评测流程采用并发调度,五阶段流程(学生基线作答 → 评判打分 → 教师生成辅导 → 学生干预作答 → 评判再次打分)可以高效执行。内置的 JsonlLogger 保证了异步并发环境下的安全日志写入。\n\n### 4. 灵活的评分标准支持\n\nRubricScoringAPI 支持多种分数格式(整数、浮点、分数式、百分比、带单位),并能自动处理越界值(clamp)。评分标准以纯文本描述,支持任意维度和满分值。\n\n## 使用场景与工作流程\n\nADEPT 提供了两种使用方式:\n\n### 编程接口\n\npython\nfrom adept import ConfigLoader, build_orchestrator_with_apis\n\nconfig = ConfigLoader.load(config_path=\"config.yaml\", env_path=\".env\")\norchestrator, api_bundle = build_orchestrator_with_apis(config)\n\n\n### Streamlit Web 界面\n\n框架内置了基于 Streamlit 的可视化控制台,支持两种运行模式:\n\n- 真实模式(Real API):调用真实 LLM,可在侧边栏独立配置三个角色的模型参数\n- 演示模式(Mock):使用预置假数据,无需 API Key,用于验证界面交互\n\n用户还可以上传自定义题目文件(支持 .txt、.json、.jsonl 格式)和评分标准文件,替换内置的 Affordance 题目集。\n\n## 评测结果与数据格式\n\n评测结果以 JSONL 格式写入,每行一个样本,包含完整的评测轨迹:\n\njson\n{\n \"index\": 0,\n \"sample_id\": \"sample-0000\",\n \"status\": \"success\",\n \"scores\": {\n \"s_base\": 60,\n \"s_knowledge\": 85,\n \"delta_score\": 25\n },\n \"prompts\": {\n \"teacher_prompt\": \"...\",\n \"baseline_prompt\": \"...\",\n \"intervention_prompt\": \"...\"\n },\n \"answers\": {\n \"baseline\": \"...\",\n \"teacher_output\": \"...\",\n \"intervention\": \"...\"\n }\n}\n\n\n这种细粒度的记录方式不仅提供了最终的量化指标,还保留了完整的可解释性——研究者可以回溯每个样本的完整交互过程,分析教师辅导的具体内容和学生的响应变化。\n\n## 局限性与未来展望\n\n目前 ADEPT 主要聚焦于设计教育领域的 Affordance 题目集,这在一定程度上限制了其通用性。不过,框架的模块化设计使得扩展到其他学科领域相对容易——只需准备相应的题目集和评分标准即可。\n\n另一个值得关注的方向是"多轮辅导"的评测。当前版本只模拟了一次性的辅导干预,而真实教学往往是多轮对话的过程。未来版本可以考虑引入多轮交互的评测模式。\n\n## 总结\n\nADEPT 代表了 AI 教育评测领域的一个重要尝试。它不满足于测试模型"知道多少",而是直接测量模型"能教会多少"。这种从"知识掌握"到"教学效果"的范式转变,对于推动 LLM 在教育场景中的负责任应用具有重要意义。\n\n对于教育技术研究者、AI 辅助教学产品开发者,以及关注 AI 教育应用的从业者来说,ADEPT 提供了一个可复现、可扩展的评测基准,值得深入探索。

3

章节 03

补充观点 1

ADEPT:用大模型评测大模型教学能力的自动化框架\n\n背景:为什么需要评估 AI 的教学能力?\n\n随着大语言模型(LLM)能力的快速提升,越来越多的教育场景开始引入 AI 辅助教学。然而,一个核心问题始终悬而未决:这些 AI 模型真的能有效教学吗?它们生成的辅导内容是否能真正帮助学生理解知识、提升成绩?\n\n传统的模型评测主要关注知识问答能力,比如 MMLU、HumanEval 等 Benchmark 测试的是模型"知道多少"。但在教育场景中,"知道"和"教会"是两个完全不同的能力维度。一个模型可能自己答对题目,却无法用恰当的方式引导学生思考。\n\nADEPT(AI Design Education Performance Test)正是为了填补这一空白而诞生的。它是一个自动化 Benchmark 框架,专门用于评估 LLM 在设计教育场景中的教学效果。\n\n核心设计理念:模拟真实教学闭环\n\nADEPT 的设计灵感来源于真实的教学流程。它构建了一个完整的"教师-学生-评判"三角架构:\n\n教师角色(TeacherAPI):基于教学大纲和素材生成辅导内容,但不直接给出答案。这模拟了优秀教师的引导式教学风格。\n\n学生角色(StudentAPI):模拟学生两次作答——第一次是没有任何辅导的基线作答(baseline),第二次是在接受教师辅导后的干预作答(intervention)。\n\n评判角色(RubricScoringAPI):基于评分标准(Rubric)对学生的两次作答进行打分,返回结构化的分数和评价理由。\n\n通过计算干预得分与基线得分的差值(Δ = s_knowledge - s_base),ADEPT 量化了"AI 辅导带来的学习效果提升"。\n\n技术架构:模块化与可扩展性\n\nADEPT 的代码架构体现了高度的模块化设计,主要包含以下几个核心组件:\n\n1. 多模型支持(LLMClientFactory)\n\n框架内置了对多种主流模型提供商的支持,包括:\n- DeepSeek\n- 通义千问(Qwen)\n- Kimi(Moonshot)\n- OpenAI\n- 任意兼容 OpenAI 协议的自定义端点\n\n这意味着研究者可以灵活配置三个角色使用不同的模型,比如用 DeepSeek 作为教师、Qwen 作为学生、Kimi 作为评判,从而进行跨模型的教学能力对比实验。\n\n2. 配置管理(ConfigLoader)\n\n支持通过 YAML 配置文件或环境变量进行灵活配置,配置优先级为:config.yaml → .env → 环境变量。每个角色可以独立配置模型参数、API 密钥和端点地址。\n\n3. 并发评测引擎(ADEPTOrchestrator)\n\n评测流程采用并发调度,五阶段流程(学生基线作答 → 评判打分 → 教师生成辅导 → 学生干预作答 → 评判再次打分)可以高效执行。内置的 JsonlLogger 保证了异步并发环境下的安全日志写入。\n\n4. 灵活的评分标准支持\n\nRubricScoringAPI 支持多种分数格式(整数、浮点、分数式、百分比、带单位),并能自动处理越界值(clamp)。评分标准以纯文本描述,支持任意维度和满分值。\n\n使用场景与工作流程\n\nADEPT 提供了两种使用方式:\n\n编程接口\n\npython\nfrom adept import ConfigLoader, build_orchestrator_with_apis\n\nconfig = ConfigLoader.load(config_path=\"config.yaml\", env_path=\".env\")\norchestrator, api_bundle = build_orchestrator_with_apis(config)\n\n\nStreamlit Web 界面\n\n框架内置了基于 Streamlit 的可视化控制台,支持两种运行模式:\n\n- 真实模式(Real API):调用真实 LLM,可在侧边栏独立配置三个角色的模型参数\n- 演示模式(Mock):使用预置假数据,无需 API Key,用于验证界面交互\n\n用户还可以上传自定义题目文件(支持 .txt、.json、.jsonl 格式)和评分标准文件,替换内置的 Affordance 题目集。\n\n评测结果与数据格式\n\n评测结果以 JSONL 格式写入,每行一个样本,包含完整的评测轨迹:\n\njson\n{\n \"index\": 0,\n \"sample_id\": \"sample-0000\",\n \"status\": \"success\",\n \"scores\": {\n \"s_base\": 60,\n \"s_knowledge\": 85,\n \"delta_score\": 25\n },\n \"prompts\": {\n \"teacher_prompt\": \"...\",\n \"baseline_prompt\": \"...\",\n \"intervention_prompt\": \"...\"\n },\n \"answers\": {\n \"baseline\": \"...\",\n \"teacher_output\": \"...\",\n \"intervention\": \"...\"\n }\n}\n\n\n这种细粒度的记录方式不仅提供了最终的量化指标,还保留了完整的可解释性——研究者可以回溯每个样本的完整交互过程,分析教师辅导的具体内容和学生的响应变化。\n\n局限性与未来展望\n\n目前 ADEPT 主要聚焦于设计教育领域的 Affordance 题目集,这在一定程度上限制了其通用性。不过,框架的模块化设计使得扩展到其他学科领域相对容易——只需准备相应的题目集和评分标准即可。\n\n另一个值得关注的方向是"多轮辅导"的评测。当前版本只模拟了一次性的辅导干预,而真实教学往往是多轮对话的过程。未来版本可以考虑引入多轮交互的评测模式。\n\n总结\n\nADEPT 代表了 AI 教育评测领域的一个重要尝试。它不满足于测试模型"知道多少",而是直接测量模型"能教会多少"。这种从"知识掌握"到"教学效果"的范式转变,对于推动 LLM 在教育场景中的负责任应用具有重要意义。\n\n对于教育技术研究者、AI 辅助教学产品开发者,以及关注 AI 教育应用的从业者来说,ADEPT 提供了一个可复现、可扩展的评测基准,值得深入探索。