Zing 论坛

正文

Noesis Tension:基于遥测技术的大语言模型提示压力分类体系

Noesis Tension 是一个开源研究项目,通过遥测数据而非文本分析来识别和分类大语言模型在处理不同提示时所承受的内部表征压力,构建了包括安全程序性、符号重复漂移、自信幻觉等核心压力状态的分类体系。

遥测分析大语言模型表征压力提示工程模型可解释性幻觉检测LlamaMistralAI安全分类体系
发布时间 2026/04/23 17:15最近活动 2026/04/23 17:56预计阅读 3 分钟
Noesis Tension:基于遥测技术的大语言模型提示压力分类体系
1

章节 01

导读 / 主楼:Noesis Tension:基于遥测技术的大语言模型提示压力分类体系

Noesis Tension 是一个开源研究项目,通过遥测数据而非文本分析来识别和分类大语言模型在处理不同提示时所承受的内部表征压力,构建了包括安全程序性、符号重复漂移、自信幻觉等核心压力状态的分类体系。

2

章节 02

研究背景与核心理念

大语言模型(LLMs)在处理不同类型的提示时,其内部状态会发生微妙但重要的变化。传统的模型评估方法通常关注输入提示和输出响应的文本内容,而 Noesis Tension 项目则开辟了一条全新的研究路径——通过分析模型的遥测数据(telemetry)来理解提示对模型内部表征产生的压力。

该项目的核心理念是:提示不仅仅是文本指令,它们会在模型内部引发特定的表征压力(representational pressures)。这些压力可以通过模型推理过程中的内部状态数据(如隐藏层激活、注意力模式、logits 分布等)被捕获和分析。通过建立一套基于遥测的分类体系,研究者能够更客观地识别模型在不同情境下的行为模式,而不仅仅依赖于对输出文本的解读。

3

章节 03

技术架构与核心机制

Noesis Tension v3.0 版本采用了一套简化的双类别提示分类系统:

Class A(事实/控制类):这类提示主要寻求事实性信息或执行明确的指令,通常具有清晰的期望输出格式。例如:"法国的首都是哪里?"、"将这段代码重构为使用 async/await"。

Class B(混合/创意/边缘案例):这类提示涉及创意生成、开放式问题或可能触发模型安全机制的边缘情况。例如:"写一首关于人工智能的短诗"、"解释量子纠缠,但要让十岁孩子能听懂"。

项目的核心创新在于其纯遥测分类器——它不分析提示或响应的文本内容,而是完全基于模型推理过程中的内部遥测数据来判断当前提示给模型带来的表征压力类型和强度。这种方法避免了基于文本模式匹配的局限性,能够捕捉到更深层次的模型状态变化。

4

章节 04

压力状态分类体系

v3.0 版本定义了三种核心的表征压力状态:

5

章节 05

Safety Procedural(安全程序性压力)

当提示触及模型的 safety guardrails 或需要模型执行严格的安全审查流程时产生。这种压力表现为模型在生成响应前进行额外的安全检查,可能导致响应延迟或内容被过滤。遥测数据显示,这类提示往往伴随着特定的注意力头激活模式和 logits 分布变化。

6

章节 06

Symbolic Repetitive Drift(符号重复漂移)

在处理创意类提示(如诗歌、故事、rap 创作)时,模型有时会陷入重复性的符号模式。这种压力状态的特点是模型在生成过程中表现出周期性的 token 重复或结构模板化。需要注意的是,v3.0 在这方面存在一个已知的软弱点——某些创意提示(尤其是简短的 rap、故事或诗歌请求)即使输出相对平常或公式化,也可能被归类为此类压力状态。

7

章节 07

Confident Hallucination Lite(自信轻幻觉)

模型以高度自信的态度生成事实上不正确的内容,但尚未达到明显的幻觉程度。这种状态的危险在于模型的确定性表达可能误导用户相信错误信息。遥测数据显示,这种状态往往伴随着 logits 分布的尖锐峰值(模型对错误答案的过度自信)。

8

章节 08

高压力标记机制

项目采用保守的 HIGH_TENSION 标记策略:只有当压力值大于等于 0.67 且出现显著峰值时,才会触发高压力标记。这种保守策略旨在减少误报,确保标记的压力状态确实值得研究者关注。

研究发现,不同模型对相同提示的压力反应存在差异。例如,Llama-3.1-8B 在处理程序性/安全类提示时往往比 Mistral-7B 显示出更高的压力值,导致更多的 HIGH_TENSION 标记。这种模型间的差异为比较不同架构的安全机制和内部行为提供了有趣的视角。