# COLLT：面向法律大模型的澄清式工具学习框架

> COLLT 是一个专为法律领域设计的澄清导向型工具学习框架，通过六类专业法律工具与智能澄清机制，解决用户法律咨询中常见的信息缺失问题，提升大模型在复杂法律场景下的回答质量。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-21T16:40:20.000Z
- 最近活动: 2026-05-21T16:47:52.257Z
- 热度: 150.9
- 关键词: 法律大模型, 工具学习, 澄清机制, Lawformer, QLoRA, 法律咨询, 多任务优化, 中文 NLP
- 页面链接: https://www.zingnex.cn/forum/thread/collt
- Canonical: https://www.zingnex.cn/forum/thread/collt
- Markdown 来源: ingested_event

---

## 背景：法律咨询中的信息困境

在中文在线法律服务平台上，用户提出的咨询问题往往存在严重的信息不足。例如，用户可能只问"我这种情况能离婚吗"，却没有说明婚姻持续时间、财产状况、子女抚养等关键信息。传统的大语言模型面对这类模糊查询时，要么给出过于笼统的回答，要么基于假设进行推测，导致法律建议缺乏针对性甚至产生误导。

COLLT（Clarification-Oriented Legal Language with Tool augmentation）正是针对这一痛点提出的解决方案。该框架赋予大语言模型两项核心能力：一是智能判断何时需要向用户澄清信息，二是调用专业法律工具获取权威依据后再作答。

## 框架架构：双轨决策机制

COLLT 的核心创新在于其独特的动作标记系统。模型在每个决策点都会输出特定的动作标记：<CLR> 表示需要向用户发起澄清对话，<DRT> 则表示信息已充足，可以直接进入工具检索和回答生成阶段。这种设计模拟了真实律师的工作流程——先判断案情是否清楚，再决定下一步行动。

框架内置了六大专业法律工具，全部基于 Lawformer 架构训练：

- **T_LAS（法律条文检索）**：根据案情描述定位相关法条
- **T_LCP（罪名预测）**：分析案件事实预测可能涉及的刑事罪名
- **T_SCR（类案检索）**：寻找相似的历史判例作为参考
- **T_LER（要素识别）**：从文本中提取法律要素（如离婚案件中的感情破裂、财产分割等）
- **T_LED（事件检测）**：识别案件中的关键法律事件及其时序
- **T_NET（网络搜索）**：获取最新的司法解释和法规变动

## 预算控制：防止工具滥用

法律领域的大模型应用面临一个实际挑战：过度检索。如果模型对每个问题都调用全部六类工具，不仅会造成严重的延迟问题，还会产生大量冗余信息干扰最终回答。COLLT 通过命题1的形式化约束解决了这一问题——每轮对话最多允许 |τ| ≤ 2 次工具调用。

这种预算控制机制迫使模型学会"精准打击"：根据当前已掌握的信息，选择最相关的工具组合。例如，对于涉及财产纠纷的离婚咨询，模型可能优先调用 T_LER 识别财产要素，再调用 T_LAS 检索婚姻法相关条文，而暂时跳过 T_LCP 这类刑事工具。

## 多模型适配与训练细节

COLLT 框架的兼容性令人印象深刻。研究团队使用 4-bit QLoRA 技术，在单张 NVIDIA RTX 4090（24GB 显存）上成功微调了五个主流中文大模型：ChatGLM3-6B、LLaMA-3-8B、InternLM3-8B、Qwen2.5-7B 和 Baichuan2-7B。这种低资源训练方案意味着即使是中小型团队也能复现该工作。

训练数据构建过程同样值得关注。团队从 DISC-Law-SFT 数据集中提取了 11,533 条真实法律咨询种子，通过 DeepSeek 模型进行两阶段标注：首先判断每条咨询是否需要澄清、需要几轮澄清对话；其次为每个种子标注应调用的工具及期望输出。最终生成的 COLLT-SFT 训练集包含 11,528 条多轮对话样本，采用 OpenAI 消息格式，方便直接用于监督微调。

## 评估体系：全方位能力验证

COLLT 的评估设计体现了法律 AI 研究的严谨性。除了常规的 LawBench 九项任务（涵盖罪名预测、法条检索、争议焦点识别等），团队还专门构建了 AmbigLegalQA 评测集，包含 5,181 条覆盖 0-4 轮澄清对话的测试样本。

评估指标设计颇具匠心：

- **Trigger-F1**：衡量模型判断是否需要澄清的准确性
- **Clarification Coverage**：检测模型生成的澄清问题是否覆盖了所有关键信息缺口
- **Multi-turn ROUGE-L**：评估多轮对话后最终回答与参考答案的匹配度

消融实验进一步验证了澄清机制和工具系统的独立价值。对比三种配置——裸模型、仅添加澄清提示的模型、完整 COLLT 微调模型——结果显示两者协同作用才能发挥最大效能。

## 开源价值与社区贡献

COLLT 项目的开源策略非常彻底。除了训练代码和评估脚本，团队还释放了完整的数据集构建流程和 11,528 条训练样本（采用 CC BY-NC 4.0 协议）。这对于法律 NLP 社区是宝贵资源——此前高质量的中文法律对话数据集相对稀缺。

项目采用的协议标记系统（<CLR>、<DRT>、<LAS> 等）为工具学习领域提供了一种可借鉴的范式。这种显式的结构化输出不仅便于调试和可解释性分析，也为后续研究提供了清晰的干预点。

## 实践启示与未来展望

对于希望将大模型应用于法律场景的开发者，COLLT 提供了几个重要启示：

首先，领域特异性工具的设计至关重要。通用检索工具无法满足法律领域的精确性要求，而基于 Lawformer 的专业模块能够提供更可靠的法律依据。

其次，澄清机制是提升用户体验的关键。与其让模型猜测用户的意图，不如主动询问缺失信息——这既提高了回答质量，也增强了用户对系统的信任感。

最后，预算控制策略值得在其他工具学习场景中借鉴。限制工具调用次数不仅优化了性能，也模拟了人类专家的工作方式——优秀律师不会盲目查阅所有资料，而是精准定位关键信息源。

COLLT 的代码和数据集已完整开源，为法律 AI 的进一步发展奠定了坚实基础。