正文

SAHM：阿拉伯语金融与伊斯兰教法合规推理新基准

研究团队推出SAHM基准测试，涵盖14,380条专家验证数据，评估发现阿拉伯语流利度并不等同于基于证据的金融推理能力，为阿拉伯语金融NLP研究提供重要工具。

阿拉伯语NLP金融AI伊斯兰金融Shari'ah合规基准测试大语言模型评估AAOIFI

发布时间 2026/04/21 13:24最近活动 2026/04/22 12:39预计阅读 2 分钟

章节 01

SAHM基准：阿拉伯语金融与伊斯兰教法合规推理的新工具

研究团队推出SAHM基准测试，涵盖14,380条专家验证数据，评估发现阿拉伯语流利度并不等同于基于证据的金融推理能力，为阿拉伯语金融NLP研究提供重要工具。该基准聚焦伊斯兰金融合规推理，填补了阿拉伯语金融AI评测的空白。

章节 02

当前金融AI进展集中于英语场景，英语金融NLP已有完善基准体系，但阿拉伯语金融NLP缺乏高质量评测基准。阿拉伯世界有庞大金融市场，伊斯兰金融遵循Shari'ah（伊斯兰教法）规则（如禁止利息、违禁行业投资，要求风险共担等），AI需跨领域推理，远超简单翻译或检索。

章节 03

SAHM是文档锚定的基准测试与指令微调数据集，数据来源包括AAOIFI监管文件、真实fatwa法学裁决、专业考试资料、企业文档，共14,380条专家验证实例。设计七项任务：AAOIFI标准问答、Fatwa问答与多选题、会计与商业考试、金融情感分析、抽取式摘要、事件-因果推理等，全面评估模型能力。

章节 04

对19个顶尖LLM评估发现：阿拉伯语流利度不能转化为基于证据的金融推理能力；模型在情感分析、多选题等识别型任务表现较好，但生成型任务（如开放式回答）和事件-因果推理任务性能显著下降，因果推理是最大短板。

章节 05

评估金融AI不能仅看语言流利度，需专门领域基准检验实质能力；英语金融NLP进步无法自动迁移到阿拉伯语，伊斯兰金融需专门数据和训练；金融决策需可追溯证据，SAHM强调文档锚定的可解释性要求。

章节 06

研究团队开源SAHM基准数据、评估框架及指令微调模型。应用场景包括：伊斯兰金融合规AI助手、阿拉伯语金融教育智能辅导系统、合规审查工具、市场情报分析（情感信号与事件因果提取）等。

章节 07

SAHM存在地域覆盖（主要海湾地区）、时效性（需定期更新法规教法）、多模态扩展（需支持图表表格）、对抗性测试（评估鲁棒性）等局限。未来需扩展地域代表性、更新数据、加入多模态能力评估及对抗性测试。