Zing 论坛

正文

COLLT:面向法律大模型的澄清式工具学习框架

COLLT 是一个专为法律领域设计的澄清导向型工具学习框架,通过六类专业法律工具与智能澄清机制,解决用户法律咨询中常见的信息缺失问题,提升大模型在复杂法律场景下的回答质量。

法律大模型工具学习澄清机制LawformerQLoRA法律咨询多任务优化中文 NLP
发布时间 2026/05/22 00:40最近活动 2026/05/22 00:47预计阅读 2 分钟
COLLT:面向法律大模型的澄清式工具学习框架
1

章节 01

导读:COLLT框架——解决法律大模型信息缺失问题的创新方案

COLLT(Clarification-Oriented Legal Language with Tool augmentation)是专为法律领域设计的澄清导向型工具学习框架,核心目标是解决用户法律咨询中常见的信息缺失问题,提升大模型在复杂法律场景下的回答质量。该框架具备智能澄清机制与六大专业法律工具,通过双轨决策机制模拟真实律师工作流程,并采用预算控制防止工具滥用,同时支持低资源训练与多模型适配,已通过严谨评估验证有效性并开源相关资源。

2

章节 02

背景:法律咨询中的信息困境

中文在线法律服务平台上,用户咨询常存在严重信息不足(如仅问“能否离婚”却未说明婚姻时长、财产状况等关键信息)。传统大模型面对模糊查询时,要么回答笼统,要么基于假设推测,导致建议缺乏针对性甚至误导。COLLT正是针对这一痛点提出,赋予模型智能判断澄清时机与调用专业工具获取权威依据的能力。

3

章节 03

核心方法:双轨决策机制与专业工具系统

COLLT的核心创新是动作标记系统:表示需澄清信息,表示可直接进入工具检索与回答阶段。框架内置六大基于Lawformer训练的专业工具:T_LAS(法律条文检索)、T_LCP(罪名预测)、T_SCR(类案检索)、T_LER(要素识别)、T_LED(事件检测)、T_NET(网络搜索)。此外,通过命题1约束每轮对话最多2次工具调用,避免过度检索,实现精准工具组合(如离婚财产纠纷优先调用T_LER和T_LAS)。

4

章节 04

低资源训练与多模型适配细节

COLLT采用4-bit QLoRA技术,在单张NVIDIA RTX 4090(24GB显存)上成功微调ChatGLM3-6B、LLaMA-3-8B等五个主流中文大模型,低资源方案便于中小型团队复现。训练数据来自DISC-Law-SFT的11533条真实咨询种子,经DeepSeek两阶段标注(判断澄清需求与工具调用),生成含11528条多轮对话的COLLT-SFT数据集(OpenAI消息格式)。

5

章节 05

全方位评估:验证框架有效性

COLLT的评估涵盖常规LawBench九项任务及专门构建的AmbigLegalQA评测集(5181条覆盖0-4轮澄清的样本)。评估指标包括Trigger-F1(澄清判断准确性)、Clarification Coverage(澄清问题覆盖关键缺口)、Multi-turn ROUGE-L(回答匹配度)。消融实验显示,澄清机制与工具系统协同作用才能发挥最大效能。

6

章节 06

开源价值:助力法律NLP社区发展

COLLT项目开源训练代码、评估脚本、数据集构建流程及11528条训练样本(CC BY-NC 4.0协议),填补了高质量中文法律对话数据集的稀缺空白。其显式协议标记系统(、等)为工具学习领域提供可借鉴范式,便于调试、可解释性分析及后续研究干预。

7

章节 07

实践启示与未来展望

COLLT对法律AI开发者的启示:1.领域特异性工具设计至关重要,通用工具无法满足法律精确性需求;2.澄清机制提升用户体验与信任;3.预算控制策略可借鉴到其他工具学习场景。COLLT的开源资源为法律AI进一步发展奠定坚实基础。