章节 01
SAHM基准:阿拉伯语金融与伊斯兰教法合规推理的新工具
研究团队推出SAHM基准测试,涵盖14,380条专家验证数据,评估发现阿拉伯语流利度并不等同于基于证据的金融推理能力,为阿拉伯语金融NLP研究提供重要工具。该基准聚焦伊斯兰金融合规推理,填补了阿拉伯语金融AI评测的空白。
正文
研究团队推出SAHM基准测试,涵盖14,380条专家验证数据,评估发现阿拉伯语流利度并不等同于基于证据的金融推理能力,为阿拉伯语金融NLP研究提供重要工具。
章节 01
研究团队推出SAHM基准测试,涵盖14,380条专家验证数据,评估发现阿拉伯语流利度并不等同于基于证据的金融推理能力,为阿拉伯语金融NLP研究提供重要工具。该基准聚焦伊斯兰金融合规推理,填补了阿拉伯语金融AI评测的空白。
章节 02
当前金融AI进展集中于英语场景,英语金融NLP已有完善基准体系,但阿拉伯语金融NLP缺乏高质量评测基准。阿拉伯世界有庞大金融市场,伊斯兰金融遵循Shari'ah(伊斯兰教法)规则(如禁止利息、违禁行业投资,要求风险共担等),AI需跨领域推理,远超简单翻译或检索。
章节 03
SAHM是文档锚定的基准测试与指令微调数据集,数据来源包括AAOIFI监管文件、真实fatwa法学裁决、专业考试资料、企业文档,共14,380条专家验证实例。设计七项任务:AAOIFI标准问答、Fatwa问答与多选题、会计与商业考试、金融情感分析、抽取式摘要、事件-因果推理等,全面评估模型能力。
章节 04
对19个顶尖LLM评估发现:阿拉伯语流利度不能转化为基于证据的金融推理能力;模型在情感分析、多选题等识别型任务表现较好,但生成型任务(如开放式回答)和事件-因果推理任务性能显著下降,因果推理是最大短板。
章节 05
评估金融AI不能仅看语言流利度,需专门领域基准检验实质能力;英语金融NLP进步无法自动迁移到阿拉伯语,伊斯兰金融需专门数据和训练;金融决策需可追溯证据,SAHM强调文档锚定的可解释性要求。
章节 06
研究团队开源SAHM基准数据、评估框架及指令微调模型。应用场景包括:伊斯兰金融合规AI助手、阿拉伯语金融教育智能辅导系统、合规审查工具、市场情报分析(情感信号与事件因果提取)等。
章节 07
SAHM存在地域覆盖(主要海湾地区)、时效性(需定期更新法规教法)、多模态扩展(需支持图表表格)、对抗性测试(评估鲁棒性)等局限。未来需扩展地域代表性、更新数据、加入多模态能力评估及对抗性测试。