Zing 论坛

正文

可解释的大语言模型分类器:MTSK数学教学研究论文自动分类系统

本文介绍了一个基于大语言模型的可解释分类器项目,专门用于将数学教学专业知识(MTSK)领域的研究论文自动分类到五个主题类别,并通过SHAP技术提供词级归因解释。

大语言模型文本分类可解释AISHAP数学教育MTSK框架多语言模型教育技术文献分类机器学习
发布时间 2026/05/13 06:22最近活动 2026/05/13 06:32预计阅读 2 分钟
可解释的大语言模型分类器:MTSK数学教学研究论文自动分类系统
1

章节 01

【导读】MTSK数学教学研究论文自动分类系统核心概述

本文介绍开源项目mtsk-classifier,旨在解决MTSK领域研究论文自动分类难题。该系统结合多语言大语言模型(intfloat/multilingual-e5-large)与SHAP可解释性技术,将论文分为5个主题类别,性能良好且开源模型权重等资源。

2

章节 02

【背景】MTSK研究论文分类的挑战

MTSK框架是数学教育重要理论,相关论文数量快速增长。人工分类耗时费力,通用文本分类工具缺乏领域针对性,催生该项目。

3

章节 03

【方法】技术架构与可解释性设计

  1. 核心模型:选用intfloat/multilingual-e5-large多语言嵌入模型,添加dropout层+线性分类头;
  2. 分类标签:T1(教师初始培训)、T2(教师教育者培训)、T3(特定数学主题MTSK)、T4(MTSK发展)、T5(MTSK框架扩展);
  3. 可解释性:采用SHAP技术提供词级归因解释,量化词汇对分类决策的贡献。
4

章节 04

【证据】实验性能与数据集情况

  1. 实验设计:固定种子三次独立运行,早停机制(patience=3),AdamW优化器(学习率5e-5);
  2. 性能指标:宏平均F1分数0.7776,验证准确率0.7966;
  3. 资源:数据集含293篇论文(需请求获取),模型发布于Hugging Face(crojasce1/mtsk-classifier),提供Colab实验笔记本。
5

章节 05

【结论】项目的学术价值与应用前景

  1. 学术贡献:为教育技术领域提供NLP应用范例,可解释性设计助力AI负责任应用;
  2. 社区价值:加速MTSK文献综述、发现研究趋势、识别空白;
  3. 扩展性:技术架构可迁移至其他教育领域或学术分类任务。
6

章节 06

【建议】局限性与未来研究方向

  1. 局限性:数据集规模小、语言覆盖不明确、领域特异性强;
  2. 未来方向:扩大数据集、探索先进模型、开发迁移学习方法、集成到学术平台。