章节 01
导读:THEMIS——印度法律领域的参数化知识大语言模型
THEMIS是专为印度成文法微调的法律领域专用大语言模型,采用参数化知识架构将法律推理能力嵌入模型权重(非依赖检索系统)。项目展示了资源受限环境下训练专业LLM的可行性,并规划了从v1到v4的完整发展路线,代码与数据集等以MIT许可证开源。
正文
THEMIS是一个基于印度成文法微调的法律领域专用大语言模型,采用参数化知识架构将法律推理能力直接嵌入模型权重,而非依赖检索系统。项目展示了如何在资源受限环境下训练专业领域LLM,并规划了从v1到v4的完整发展路线。
章节 01
THEMIS是专为印度成文法微调的法律领域专用大语言模型,采用参数化知识架构将法律推理能力嵌入模型权重(非依赖检索系统)。项目展示了资源受限环境下训练专业LLM的可行性,并规划了从v1到v4的完整发展路线,代码与数据集等以MIT许可证开源。
章节 02
THEMIS聚焦印度成文法,是参数化知识模型(区别于检索式问答或API包装),核心理念为"HECTOR检索,THEMIS推理"。开发者认为法律智能需理解条文逻辑、适用场景及关系,而非仅查找条文。
章节 03
基于Mistral 7B Instruct v0.3,采用LoRA高效微调,平衡推理能力与计算效率(支持Kaggle免费T4 GPU训练)。
覆盖BNS2023、IPC1860、BNSS2023、BSA2023等印度核心法律。
Mistral预训练数据无BNS2023(2023年12月颁布),LoRA微调仅教会"回答方式"未掌握具体法律内容。
章节 04
| 参数 | v1值 | v2目标 |
|---|---|---|
| LoRA秩 | 8 | 32 |
| 序列长度 | 512 | 2048 |
| 训练对数 | 1939 | 50000-90000 |
目标:10000-15000训练对、LoRA秩16、序列长度1024;改进方向含扩展数据集、消歧BNS缩写、引入引用准确率指标;成功标准:70%以上刑法查询正确识别BNS并准确引用条款。
目标:50000-90000训练对、LoRA秩32、序列长度2048;训练数据覆盖刑法、程序法、证据法等多领域(总计74000对);成功标准:引用准确率>85%,幻觉率<10%。
章节 05
终极目标融合THEMIS(参数化推理)与HECTOR(检索增强):
章节 06
章节 07
THEMIS是法律AI领域的重要探索,证明构建有用领域模型需足够数据、合理架构、诚实评估及长期迭代。其从v1局限到v3雄心的路线图,为垂直领域AI开发者提供宝贵参考。