# SIS-LLM：大语言模型推理可持续性评估的统一框架

> SIS-LLM是一个用于评估大语言模型推理可持续性的统一框架，通过整合性能、效率和环境指标，生成单一可解释的可持续性指数评分（SIS）。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-15T22:46:15.000Z
- 最近活动: 2026-06-15T22:49:12.549Z
- 热度: 165.9
- 关键词: LLM, sustainability, energy efficiency, carbon emissions, inference optimization, green AI, SIS, Qwen, Mistral, LLaMA, Phi
- 页面链接: https://www.zingnex.cn/forum/thread/sis-llm
- Canonical: https://www.zingnex.cn/forum/thread/sis-llm
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**：Urooj Asgher（Technological University Dublin, Ireland）
- **来源平台**：GitHub
- **原项目名**：SIS-LLM-InferenceTool
- **原始链接**：https://github.com/urooj88/SIS-LLM-InferenceTool
- **发布时间**：2026-06-15

---

## 背景与动机

随着大语言模型（LLM）在各行各业的广泛应用，模型推理阶段的能源消耗和环境影响日益受到关注。当前业界主要关注模型的准确率和推理速度，却忽视了能源效率和碳排放等可持续性指标。这种单一维度的评估方式难以全面反映模型在实际部署中的真实成本，也无法为绿色AI的发展提供有效指导。

SIS-LLM（Sustainability Index Score for LLM）应运而生，它提出了一个统一框架，将性能、效率和环境指标整合为单一可解释的可持续性评分，帮助开发者和企业在模型选型时做出更明智的决策。

---

## 核心概念：什么是SIS评分

SIS（Sustainability Index Score，可持续性指数评分）是SIS-LLM框架的核心输出，它将多个维度的指标归一化并加权计算，最终生成一个介于0到1之间的评分。评分越高，表示模型在可持续性方面表现越差；评分越低，则表示模型更加节能环保。

### SIS评分等级划分

| SIS评分范围 | 可持续性等级 |
|-------------|--------------|
| 0.0 - 0.3   | 低影响（Low Impact） |
| 0.3 - 0.7   | 中等影响（Medium Impact） |
| 0.7 - 1.0   | 高影响（High Impact） |

### SIS框架测量的关键指标

SIS-LLM从以下十个维度全面评估LLM推理的可持续性：

**能源与环境指标**
- **能耗（Energy Consumption）**：单位查询的焦耳数，越低越好
- **碳排放（Carbon Emissions）**：单位查询的克二氧化碳当量，越低越好
- **令牌能效（Token Energy Efficiency）**：每焦耳生成的令牌数，越高越好

**性能指标**
- **执行时间（Execution Time）**：单位查询的秒数，越低越好
- **吞吐量（Throughput）**：每秒生成的令牌数，越高越好
- **准确率（Accuracy）**：在基准测试上的表现

**资源效率指标**
- **模型效率（Model Efficiency）**：准确率除以能耗，越高越好
- **硬件效率（Hardware Efficiency）**：准确率除以CPU小时数，越高越好
- **内存使用（Memory Usage）**：以GB为单位，越低越好
- **FLOPs（浮点运算次数）**：每次推理的运算量，越低越好
- **模型大小（Model Size）**：以MB为单位，越小越好

---

## 评估的模型与配置

SIS-LLM项目对四个主流开源大语言模型进行了全面评估，这些模型代表了当前7B参数级别的主流选择：

| 模型名称 | 参数量 | 量化方式 |
|----------|--------|----------|
| Qwen2.5-7B-Instruct | 7B | GGUF Q4_K_M |
| Mistral-7B-Instruct-v0.3 | 7B | GGUF Q4_K_M |
| Meta-Llama-3.1-8B-Instruct | 8B | GGUF Q4_K_M |
| Phi-3.5-mini-Instruct | 3.8B | GGUF Q4_K_M |

所有模型均采用llama.cpp框架部署，使用GGUF Q4_K_M量化格式，这种配置在保证模型性能的同时显著降低了内存占用和计算需求。

---

## 基准测试数据集

为了确保评估的全面性和公正性，项目采用了三个权威基准测试数据集，共1500个测试样本：

**GSM8K（数学推理）**
- 样本数：500
- 任务类型：数学推理与问题解决
- 特点：测试模型的逻辑推理和数学计算能力

**MMLU（多学科知识）**
- 样本数：500
- 任务类型：多领域选择题
- 特点：涵盖57个学科领域，测试模型的知识广度

**TruthfulQA（事实真实性）**
- 样本数：500
- 任务类型：事实真实性评估
- 特点：测试模型生成真实、非幻觉回答的能力

所有测试使用固定随机种子（seed=42）以确保结果的可复现性。

---

## 技术实现与硬件配置

### 硬件环境

项目在高性能计算（HPC）服务器上进行测试，具体配置如下：

- **CPU**：2× Intel Xeon Gold 6430（64核，128线程）
- **GPU**：通过CUDA_VISIBLE_DEVICES=""禁用GPU，仅使用CPU推理
- **内存**：足够加载GGUF Q4_K_M模型（每模型约5-6GB）
- **功耗测量**：Adcewatt外接功率计，通过/dev/ttyUSB0串口连接

### 功耗测量方案

SIS-LLM采用物理功率计进行真实的能耗测量，而非依赖软件估算。Adcewatt功率计读取两个有功功率通道（#activepow8和#activepow9），通过串口将实时功耗数据传输到系统。这种硬件级别的测量方式确保了能耗数据的准确性和可信度。

### 软件架构

项目包含以下核心组件：

**主运行脚本**
- `main_sustainability_runner_LLM_CPU.py`：主入口点，协调整个评估流程
- `build_eval_dataset.py`：构建评估数据集（GSM8K + MMLU + TruthfulQA）
- `run_omegawatt_log_both_models12_same.sh`：编排脚本，依次运行所有4个模型

**功耗监测脚本**
- `run_omegawatt_log_models12.py`：每个模型的功耗记录器
- `run_basepower_adcewatt_var_std.py`：基线功耗测量（12次迭代×5秒）

**模型测试脚本**
- `collect_inference_metrics.py`：读取保存的输出，计算准确率和FLOPs
- `model1.sh`至`model4.sh`：分别对应Qwen2.5、Mistral、LLaMA、Phi-mini的llama.cpp运行脚本

---

## 实际应用价值

### 对开发者的意义

SIS-LLM为AI开发者提供了一个客观、量化的模型选型工具。在选择部署模型时，开发者不再仅仅关注准确率，而是可以综合考虑能源效率、碳排放和硬件成本。这对于需要在边缘设备或资源受限环境中部署模型的场景尤为重要。

### 对企业的价值

对于企业而言，SIS评分可以帮助：
- **降低运营成本**：识别能耗更低的模型，减少电费支出
- **履行ESG责任**：量化AI系统的碳足迹，支持可持续发展报告
- **优化资源配置**：根据硬件效率指标，合理规划服务器容量

### 对研究界的贡献

SIS-LLM为LLM可持续性研究提供了：
- **标准化评估框架**：统一的指标体系和评分方法
- **开源工具链**：完整的代码实现和数据集构建工具
- **基准数据集**：1500个样本的评估数据集，支持可复现研究

---

## 使用方法与部署

### 快速开始

1. **克隆仓库**
```bash
git clone https://github.com/urooj88/SIS-LLM-InferenceTool.git
cd SIS-LLM-InferenceTool
```

2. **安装依赖**
```bash
pip install -r requirements.txt
```

3. **构建评估数据集**（首次运行）
```bash
python3 build_eval_dataset.py --reason 500 --mcq 500 --truth 500 --force-rebuild
```

4. **运行评估**
```bash
python3 main_sustainability_runner_LLM_CPU.py
```

### 模型下载

项目需要从HuggingFace下载以下GGUF模型：
- Qwen2.5-7B-Instruct-GGUF
- Mistral-7B-Instruct-v0.3-GGUF
- Meta-Llama-3.1-8B-Instruct-GGUF
- Phi-3.5-mini-instruct-GGUF

---

## 局限性与未来工作

### 当前局限

1. **硬件依赖**：当前版本需要Adcewatt功率计进行物理功耗测量，没有硬件时需要手动提供model_metrices.csv
2. **CPU-only**：当前实现主要针对CPU推理，GPU版本的评估仍在开发中
3. **模型范围**：目前仅评估了4个7B级别的模型，更大或更小的模型尚未覆盖

### 未来方向

- 扩展GPU推理的可持续性评估
- 支持更多模型架构和量化方案
- 开发云端部署的能耗估算模型
- 建立行业标准的SIS基准数据库

---

## 总结与启示

SIS-LLM项目为大语言模型的可持续性评估开辟了新路径。通过将能源效率、碳排放与性能指标统一到一个可解释的评分体系中，它帮助开发者和企业在追求模型性能的同时，也能关注环境影响和运营成本。

在AI技术快速发展的今天，可持续性不应是事后考虑的因素，而应成为模型设计和选型的核心指标之一。SIS-LLM提供的框架和工具，为实现这一目标迈出了重要一步。随着更多研究者和开发者采用这一框架，我们有望看到更加绿色、高效的AI系统部署实践。