正文

可解释的大语言模型分类器：MTSK数学教学研究论文自动分类系统

本文介绍了一个基于大语言模型的可解释分类器项目，专门用于将数学教学专业知识（MTSK）领域的研究论文自动分类到五个主题类别，并通过SHAP技术提供词级归因解释。

大语言模型文本分类可解释AISHAP数学教育MTSK框架多语言模型教育技术文献分类机器学习

发布时间 2026/05/13 06:22最近活动 2026/05/13 06:32预计阅读 2 分钟

可解释的大语言模型分类器：MTSK数学教学研究论文自动分类系统

1

章节 01

【导读】MTSK数学教学研究论文自动分类系统核心概述

本文介绍开源项目mtsk-classifier，旨在解决MTSK领域研究论文自动分类难题。该系统结合多语言大语言模型（intfloat/multilingual-e5-large）与SHAP可解释性技术，将论文分为5个主题类别，性能良好且开源模型权重等资源。

2

章节 02

【背景】MTSK研究论文分类的挑战

MTSK框架是数学教育重要理论，相关论文数量快速增长。人工分类耗时费力，通用文本分类工具缺乏领域针对性，催生该项目。

3

章节 03

【方法】技术架构与可解释性设计

核心模型：选用intfloat/multilingual-e5-large多语言嵌入模型，添加dropout层+线性分类头；
分类标签：T1（教师初始培训）、T2（教师教育者培训）、T3（特定数学主题MTSK）、T4（MTSK发展）、T5（MTSK框架扩展）；
可解释性：采用SHAP技术提供词级归因解释，量化词汇对分类决策的贡献。

4

章节 04

【证据】实验性能与数据集情况

实验设计：固定种子三次独立运行，早停机制（patience=3），AdamW优化器（学习率5e-5）；
性能指标：宏平均F1分数0.7776，验证准确率0.7966；
资源：数据集含293篇论文（需请求获取），模型发布于Hugging Face（crojasce1/mtsk-classifier），提供Colab实验笔记本。

5

章节 05

【结论】项目的学术价值与应用前景

学术贡献：为教育技术领域提供NLP应用范例，可解释性设计助力AI负责任应用；
社区价值：加速MTSK文献综述、发现研究趋势、识别空白；
扩展性：技术架构可迁移至其他教育领域或学术分类任务。

6

章节 06

【建议】局限性与未来研究方向

局限性：数据集规模小、语言覆盖不明确、领域特异性强；
未来方向：扩大数据集、探索先进模型、开发迁移学习方法、集成到学术平台。