正文

Olaverse Legal：面向法律场景的开源大模型家族与专业训练方法论

Olaverse Legal 是一系列面向法律领域的开源大语言模型，基于 Mistral 架构通过法律案例数据集进行 SFT 和 DPO 训练，在合同分析、证据评估、法律推理等任务上展现出专业级能力。

legal AIMistralfine-tuningSFTDPOcontract analysisopen sourceLLM

发布时间 2026/05/28 03:02最近活动 2026/05/28 03:19预计阅读 3 分钟

章节 01

Olaverse Legal开源法律大模型家族：核心概览与价值

模型家族规划了从轻量级到企业级的完整矩阵：已发布的 Peace-7B（7B规模，适用于通用法律任务）、即将发布的 Nkem-34B（复杂法律推理）和 Moyin-72B（企业级自动化）。项目采用 Apache License 2.0 开源许可，允许商业使用、修改与分发。

章节 02

背景：法律AI的专业化需求与项目缘起

法律领域对 AI 有特殊要求：需理解复杂法律文本、引用判例、识别条款风险、进行逻辑推理。通用大语言模型在专业法律任务中往往缺乏准确性和可验证性。

Olaverse Legal 项目应运而生，目标是构建能真正理解法律语言、辅助律师工作的开源模型家族。

章节 03

模型家族矩阵：从轻量到企业级的完整布局

Olaverse Legal 采用统一版本策略，模型矩阵如下：

模型	规模	版本	状态	适用场景
Peace	7B	v1.0	已发布	通用法律任务，快速推理
Nkem	34B	v1.0	即将发布	复杂法律推理，高精度需求
Moyin	72B	v1.0	即将发布	企业级法律自动化，极致性能

已发布的 Peace-7B 基于 Mistral-7B-v0.3 架构，通过法律数据集微调，平衡体积与专业能力。

章节 04

训练方法论：SFT+DPO两阶段转化通用模型

Peace 模型采用两阶段训练策略：

第一阶段：监督微调（SFT）

使用哈佛大学图书馆创新实验室的 Cold Cases 数据集（4800个真实案例，含案件名称、教学大纲、法官意见、判决结果），学习法律文本表达、论证结构与判决逻辑。

第二阶段：直接偏好优化（DPO）

基于 LegalBench 构建419对偏好样本，覆盖合同问答、传闻证据规则、商标分类等5个领域，提升输出专业性与准确性。

训练配置：序列长度2048 tokens，4-bit量化，LoRA秩（SFT阶段16，DPO阶段自适应），A100 GPU训练约17分钟，最终损失1.08。

章节 05

性能评估：Peace-7B在法律任务上的显著提升

Peace-7B 相比基座 Mistral-7B 性能提升：

任务	Mistral-7B 基线	Peace-7B v1.0	提升幅度
合同分析	14.24s	9.60s	32.6% 更快
证据分析	9.28s	9.57s	基本持平
法律推理	9.36s	9.55s	基本持平
商标分类	9.40s	9.55s	基本持平
案例分析	9.37s	8.06s	14.0% 更快
平均	10.33s	9.27s	10.3% 更快

输出质量改善：结构化专业回复、准确法律引用、清晰推理过程、跨任务一致质量。

章节 06

核心应用场景：覆盖多专业法律任务

合同分析

识别条款关键义务、风险点与法律影响（如解释特拉华州仲裁条款的含义）。

法律研究

回答法律问题、解释判例、提供法规解读，引用相关法律概念。

文档审查

审查合规性、缺失条款与潜在问题，适用于尽职调查、并购审查。

案件结果预测

基于事实与先例预测判决结果，辅助案件策略评估。

证据评估

判断证据可采性、相关性与证明力，辅助庭审准备。

章节 07

伦理使用与开源许可：明确边界与宽松授权

局限性

可能生成看似合理但错误的法律信息
未针对特定司法管辖区训练
无法提供个性化法律建议
仅作为研究/分析工具使用

伦理准则

法律专业人士验证输出
不用于自动化法律决策
明确披露AI辅助
人类监督所有法律应用