正文

Stellar LLM Classifier：结合天体物理规则与大语言模型的恒星智能分类系统

一个创新的混合架构天文工具，将确定性硬计算（Hard Computing）与 AstroSage-8B 大语言模型相结合，实现对 Gaia DR3 恒星光谱类型的自动分类与自然语言描述生成。

恒星分类大语言模型天体物理Gaia DR3AstroSage-8B混合计算光谱类型机器学习天文AI自然语言生成

发布时间 2026/06/08 05:12最近活动 2026/06/08 05:26预计阅读 3 分钟

Stellar LLM Classifier：结合天体物理规则与大语言模型的恒星智能分类系统

章节 01

导读：Stellar LLM Classifier——天体物理与大语言模型融合的恒星分类工具

Stellar LLM Classifier是一款创新的恒星智能分类工具，核心在于采用混合架构，将传统天体物理确定性计算（硬计算）与AstroSage-8B大语言模型结合，实现Gaia DR3恒星光谱类型的自动分类及自然语言描述生成。工具支持本地运行，确保数据隐私安全，旨在让无编程背景的天文爱好者和研究者也能轻松使用先进分类技术。

章节 02

项目背景与来源

原作者/维护者：bennylimpid196
来源平台：GitHub
原始标题：stellar-llm-classifier
发布时间：2026年6月3日
最后更新：2026年6月7日
项目目的：让无编程背景的天文爱好者和研究人员能轻松使用先进的恒星分类技术，处理Gaia DR3数据集。

章节 03

核心技术与方法架构

混合计算范式

硬计算层：基于天体物理规则（如绝对星等、有效温度、表面重力），按摩根-基南（MK）光谱分类系统进行标准化分类，确保物理可解释性与严谨性。 软计算层：调用微调的AstroSage-8B大语言模型（80亿参数，经天文文献训练），将技术性分类数据转化为专业自然语言描述。

数据处理流程

数据导入：上传含Gaia DR3数据的CSV文件
参数验证：检查绝对星等、有效温度、表面重力等必需字段
规则分类：硬计算层确定MK光谱类型
智能描述：软计算层生成自然语言描述
结果导出：输出含光谱类型和描述的报告

章节 04

模型性能验证结果

V6版本核心指标（测试集：498颗Gaia DR3恒星）

指标	数值
准确率	0.7579
科恩卡帕系数	0.7083
宏平均F1分数	0.6710
近misses（距离1）	0.9976
平均绝对误差（ΔTeff）	248.0 K

置信区间与版本演进

Bootstrap 95%置信区间误差范围：[0.135,0.205]，稳定性良好
版本迭代：V1到V7优化系统提示词与验证策略，V7准确率提升至0.7951，平均绝对误差降至212.2K

章节 05

应用场景与使用指南

目标用户

天文爱好者：无需编程知识分析恒星数据
教育工作者：教学演示恒星分类概念
研究人员：批量处理Gaia DR3数据集
数据科学家：探索天文数据与自然语言生成结合

使用步骤

从GitHub Releases下载安装程序（.exe）
运行安装向导完成安装
启动应用，导入符合格式的CSV文件
选择"Classify stars"开始分类
导出结果至电子表格

系统要求

OS：Windows10/11
处理器：Intel Core i5/AMD Ryzen5（4核+）
内存：8GB（推荐16GB）
存储：5GB可用空间
显卡：独立显卡可选（提升性能）

章节 06

项目意义与技术启示

科学价值

代表天文数据处理领域的重要尝试：融合传统确定性算法与生成式AI，既保留物理规则严谨性，又利用LLM的表达能力，为科学数据可视化与传播提供新思路。

技术启示

确定性+生成式：兼顾科学准确性与人性化输出
本地化处理：保护敏感数据，支持离线工作
领域微调：通用LLM经专业语料微调可显著提升特定领域表现

章节 07

局限与改进建议

当前局限

主要针对Gaia DR3数据优化，使用其他数据源可能结果不一致

改进方向

扩展数据源支持
进一步优化模型在边缘光谱类型上的分类精度