正文

ADEPT：用大模型评测大模型教学能力的自动化框架

ADEPT 是一个专门评估大语言模型在设计教育场景中教学效果的自动化 Benchmark 框架，通过模拟教师辅导和学生学习的完整流程，量化衡量 AI 辅导对学习效果的提升。

LLMBenchmark教育教学评估AI辅导设计教育自动化评测

发布时间 2026/04/10 16:31最近活动 2026/04/10 16:44预计阅读 10 分钟

章节 01

导读 / 主楼：ADEPT：用大模型评测大模型教学能力的自动化框架

章节 02

背景

ADEPT：用大模型评测大模型教学能力的自动化框架\n\n## 背景：为什么需要评估 AI 的教学能力？\n\n随着大语言模型（LLM）能力的快速提升，越来越多的教育场景开始引入 AI 辅助教学。然而，一个核心问题始终悬而未决：这些 AI 模型真的能有效教学吗？它们生成的辅导内容是否能真正帮助学生理解知识、提升成绩？\n\n传统的模型评测主要关注知识问答能力，比如 MMLU、HumanEval 等 Benchmark 测试的是模型"知道多少"。但在教育场景中，"知道"和"教会"是两个完全不同的能力维度。一个模型可能自己答对题目，却无法用恰当的方式引导学生思考。\n\nADEPT（AI Design Education Performance Test）正是为了填补这一空白而诞生的。它是一个自动化 Benchmark 框架，专门用于评估 LLM 在设计教育场景中的教学效果。\n\n## 核心设计理念：模拟真实教学闭环\n\nADEPT 的设计灵感来源于真实的教学流程。它构建了一个完整的"教师-学生-评判"三角架构：\n\n教师角色（TeacherAPI）：基于教学大纲和素材生成辅导内容，但不直接给出答案。这模拟了优秀教师的引导式教学风格。\n\n学生角色（StudentAPI）：模拟学生两次作答——第一次是没有任何辅导的基线作答（baseline），第二次是在接受教师辅导后的干预作答（intervention）。\n\n评判角色（RubricScoringAPI）：基于评分标准（Rubric）对学生的两次作答进行打分，返回结构化的分数和评价理由。\n\n通过计算干预得分与基线得分的差值（Δ = s_knowledge - s_base），ADEPT 量化了"AI 辅导带来的学习效果提升"。\n\n## 技术架构：模块化与可扩展性\n\nADEPT 的代码架构体现了高度的模块化设计，主要包含以下几个核心组件：\n\n### 1. 多模型支持（LLMClientFactory）\n\n框架内置了对多种主流模型提供商的支持，包括：\n- DeepSeek\n- 通义千问（Qwen）\n- Kimi（Moonshot）\n- OpenAI\n- 任意兼容 OpenAI 协议的自定义端点\n\n这意味着研究者可以灵活配置三个角色使用不同的模型，比如用 DeepSeek 作为教师、Qwen 作为学生、Kimi 作为评判，从而进行跨模型的教学能力对比实验。\n\n### 2. 配置管理（ConfigLoader）\n\n支持通过 YAML 配置文件或环境变量进行灵活配置，配置优先级为：config.yaml → .env → 环境变量。每个角色可以独立配置模型参数、API 密钥和端点地址。\n\n### 3. 并发评测引擎（ADEPTOrchestrator）\n\n评测流程采用并发调度，五阶段流程（学生基线作答 → 评判打分 → 教师生成辅导 → 学生干预作答 → 评判再次打分）可以高效执行。内置的 JsonlLogger 保证了异步并发环境下的安全日志写入。\n\n### 4. 灵活的评分标准支持\n\nRubricScoringAPI 支持多种分数格式（整数、浮点、分数式、百分比、带单位），并能自动处理越界值（clamp）。评分标准以纯文本描述，支持任意维度和满分值。\n\n## 使用场景与工作流程\n\nADEPT 提供了两种使用方式：\n\n### 编程接口\n\n`python\nfrom adept import ConfigLoader, build_orchestrator_with_apis\n\nconfig = ConfigLoader.load(config_path=\"config.yaml\", env_path=\".env\")\norchestrator, api_bundle = build_orchestrator_with_apis(config)\n`\n\n### Streamlit Web 界面\n\n框架内置了基于 Streamlit 的可视化控制台，支持两种运行模式：\n\n- 真实模式（Real API）：调用真实 LLM，可在侧边栏独立配置三个角色的模型参数\n- 演示模式（Mock）：使用预置假数据，无需 API Key，用于验证界面交互\n\n用户还可以上传自定义题目文件（支持 .txt、.json、.jsonl 格式）和评分标准文件，替换内置的 Affordance 题目集。\n\n## 评测结果与数据格式\n\n评测结果以 JSONL 格式写入，每行一个样本，包含完整的评测轨迹：\n\n`json\n{\n \"index\": 0,\n \"sample_id\": \"sample-0000\",\n \"status\": \"success\",\n \"scores\": {\n \"s_base\": 60,\n \"s_knowledge\": 85,\n \"delta_score\": 25\n },\n \"prompts\": {\n \"teacher_prompt\": \"...\",\n \"baseline_prompt\": \"...\",\n \"intervention_prompt\": \"...\"\n },\n \"answers\": {\n \"baseline\": \"...\",\n \"teacher_output\": \"...\",\n \"intervention\": \"...\"\n }\n}\n`\n\n这种细粒度的记录方式不仅提供了最终的量化指标，还保留了完整的可解释性——研究者可以回溯每个样本的完整交互过程，分析教师辅导的具体内容和学生的响应变化。\n\n## 局限性与未来展望\n\n目前 ADEPT 主要聚焦于设计教育领域的 Affordance 题目集，这在一定程度上限制了其通用性。不过，框架的模块化设计使得扩展到其他学科领域相对容易——只需准备相应的题目集和评分标准即可。\n\n另一个值得关注的方向是"多轮辅导"的评测。当前版本只模拟了一次性的辅导干预，而真实教学往往是多轮对话的过程。未来版本可以考虑引入多轮交互的评测模式。\n\n## 总结\n\nADEPT 代表了 AI 教育评测领域的一个重要尝试。它不满足于测试模型"知道多少"，而是直接测量模型"能教会多少"。这种从"知识掌握"到"教学效果"的范式转变，对于推动 LLM 在教育场景中的负责任应用具有重要意义。\n\n对于教育技术研究者、AI 辅助教学产品开发者，以及关注 AI 教育应用的从业者来说，ADEPT 提供了一个可复现、可扩展的评测基准，值得深入探索。

章节 03

补充观点 1

ADEPT：用大模型评测大模型教学能力的自动化框架\n\n背景：为什么需要评估 AI 的教学能力？\n\n随着大语言模型（LLM）能力的快速提升，越来越多的教育场景开始引入 AI 辅助教学。然而，一个核心问题始终悬而未决：这些 AI 模型真的能有效教学吗？它们生成的辅导内容是否能真正帮助学生理解知识、提升成绩？\n\n传统的模型评测主要关注知识问答能力，比如 MMLU、HumanEval 等 Benchmark 测试的是模型"知道多少"。但在教育场景中，"知道"和"教会"是两个完全不同的能力维度。一个模型可能自己答对题目，却无法用恰当的方式引导学生思考。\n\nADEPT（AI Design Education Performance Test）正是为了填补这一空白而诞生的。它是一个自动化 Benchmark 框架，专门用于评估 LLM 在设计教育场景中的教学效果。\n\n核心设计理念：模拟真实教学闭环\n\nADEPT 的设计灵感来源于真实的教学流程。它构建了一个完整的"教师-学生-评判"三角架构：\n\n教师角色（TeacherAPI）：基于教学大纲和素材生成辅导内容，但不直接给出答案。这模拟了优秀教师的引导式教学风格。\n\n学生角色（StudentAPI）：模拟学生两次作答——第一次是没有任何辅导的基线作答（baseline），第二次是在接受教师辅导后的干预作答（intervention）。\n\n评判角色（RubricScoringAPI）：基于评分标准（Rubric）对学生的两次作答进行打分，返回结构化的分数和评价理由。\n\n通过计算干预得分与基线得分的差值（Δ = s_knowledge - s_base），ADEPT 量化了"AI 辅导带来的学习效果提升"。\n\n技术架构：模块化与可扩展性\n\nADEPT 的代码架构体现了高度的模块化设计，主要包含以下几个核心组件：\n\n1. 多模型支持（LLMClientFactory）\n\n框架内置了对多种主流模型提供商的支持，包括：\n- DeepSeek\n- 通义千问（Qwen）\n- Kimi（Moonshot）\n- OpenAI\n- 任意兼容 OpenAI 协议的自定义端点\n\n这意味着研究者可以灵活配置三个角色使用不同的模型，比如用 DeepSeek 作为教师、Qwen 作为学生、Kimi 作为评判，从而进行跨模型的教学能力对比实验。\n\n2. 配置管理（ConfigLoader）\n\n支持通过 YAML 配置文件或环境变量进行灵活配置，配置优先级为：config.yaml → .env → 环境变量。每个角色可以独立配置模型参数、API 密钥和端点地址。\n\n3. 并发评测引擎（ADEPTOrchestrator）\n\n评测流程采用并发调度，五阶段流程（学生基线作答 → 评判打分 → 教师生成辅导 → 学生干预作答 → 评判再次打分）可以高效执行。内置的 JsonlLogger 保证了异步并发环境下的安全日志写入。\n\n4. 灵活的评分标准支持\n\nRubricScoringAPI 支持多种分数格式（整数、浮点、分数式、百分比、带单位），并能自动处理越界值（clamp）。评分标准以纯文本描述，支持任意维度和满分值。\n\n使用场景与工作流程\n\nADEPT 提供了两种使用方式：\n\n编程接口\n\npython\nfrom adept import ConfigLoader, build_orchestrator_with_apis\n\nconfig = ConfigLoader.load(config_path=\"config.yaml\", env_path=\".env\")\norchestrator, api_bundle = build_orchestrator_with_apis(config)\n\n\nStreamlit Web 界面\n\n框架内置了基于 Streamlit 的可视化控制台，支持两种运行模式：\n\n- 真实模式（Real API）：调用真实 LLM，可在侧边栏独立配置三个角色的模型参数\n- 演示模式（Mock）：使用预置假数据，无需 API Key，用于验证界面交互\n\n用户还可以上传自定义题目文件（支持 .txt、.json、.jsonl 格式）和评分标准文件，替换内置的 Affordance 题目集。\n\n评测结果与数据格式\n\n评测结果以 JSONL 格式写入，每行一个样本，包含完整的评测轨迹：\n\njson\n{\n \"index\": 0,\n \"sample_id\": \"sample-0000\",\n \"status\": \"success\",\n \"scores\": {\n \"s_base\": 60,\n \"s_knowledge\": 85,\n \"delta_score\": 25\n },\n \"prompts\": {\n \"teacher_prompt\": \"...\",\n \"baseline_prompt\": \"...\",\n \"intervention_prompt\": \"...\"\n },\n \"answers\": {\n \"baseline\": \"...\",\n \"teacher_output\": \"...\",\n \"intervention\": \"...\"\n }\n}\n\n\n这种细粒度的记录方式不仅提供了最终的量化指标，还保留了完整的可解释性——研究者可以回溯每个样本的完整交互过程，分析教师辅导的具体内容和学生的响应变化。\n\n局限性与未来展望\n\n目前 ADEPT 主要聚焦于设计教育领域的 Affordance 题目集，这在一定程度上限制了其通用性。不过，框架的模块化设计使得扩展到其他学科领域相对容易——只需准备相应的题目集和评分标准即可。\n\n另一个值得关注的方向是"多轮辅导"的评测。当前版本只模拟了一次性的辅导干预，而真实教学往往是多轮对话的过程。未来版本可以考虑引入多轮交互的评测模式。\n\n总结\n\nADEPT 代表了 AI 教育评测领域的一个重要尝试。它不满足于测试模型"知道多少"，而是直接测量模型"能教会多少"。这种从"知识掌握"到"教学效果"的范式转变，对于推动 LLM 在教育场景中的负责任应用具有重要意义。\n\n对于教育技术研究者、AI 辅助教学产品开发者，以及关注 AI 教育应用的从业者来说，ADEPT 提供了一个可复现、可扩展的评测基准，值得深入探索。

ADEPT：用大模型评测大模型教学能力的自动化框架

导读 / 主楼：ADEPT：用大模型评测大模型教学能力的自动化框架

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Lattice：AI代理工作流的运维平台，实现跨会话协调与自动化