章节 01
小模型的大智慧:Qwen3-1.7B如何在越南语数学推理中突破'思维鸿沟'
一项开创性研究聚焦小语言模型(SLM)在非英语推理任务中的潜力与挑战,以Qwen3-1.7B为研究对象,通过构建越南语小学数学数据集Vi-S1K和评估基准Vi-Elementary-Bench,发现监督微调(SFT)能解锁模型隐藏的推理能力,而复杂智能体框架(如ReAct)反而成为认知负担,为边缘AI实现复杂推理提供了新路径。
正文
一项开创性研究揭示了小语言模型在非英语推理任务中的潜力与挑战。通过构建越南语小学数学数据集Vi-S1K和基准测试Vi-Elementary-Bench,研究发现监督微调能解锁模型的隐藏推理能力,而复杂的智能体框架反而可能成为认知负担。
章节 01
一项开创性研究聚焦小语言模型(SLM)在非英语推理任务中的潜力与挑战,以Qwen3-1.7B为研究对象,通过构建越南语小学数学数据集Vi-S1K和评估基准Vi-Elementary-Bench,发现监督微调(SFT)能解锁模型隐藏的推理能力,而复杂智能体框架(如ReAct)反而成为认知负担,为边缘AI实现复杂推理提供了新路径。
章节 02
无处不在的AI愿景要求模型在边缘设备运行,但小语言模型(SLMs)面临'推理鸿沟',难以维持连贯思维链,非英语环境(如越南语独特语法和声调)更增加复杂性。
大模型(如GPT-4)推理能力强但依赖云端,成本高且有数据安全顾虑;1.7B级小模型可在普通设备运行,若具备推理能力则能推动AI民主化。
现有研究以英语为中心,非英语语言的语法、文化差异对推理的影响远超翻译问题。
章节 03
包含1000道精心策划的越南小学数学题,每道题配有详细解题步骤和解释;通过Gemini 2.5 Flash-Lite流水线本地化,确保术语符合越南教材标准、问题有文化相关性、解题步骤符合本土教学传统。
双维度评估:计算准确性(是否得出正确答案)和解释质量(能否清晰解释解题思路),反映数学教育'知其然更知其所以然'的目标。
章节 04
Qwen3-1.7B基础模型计算准确性达4.05/5,存在'格式化鸿沟'——拥有正确知识但无法以人类期望格式输出。
监督微调使解释质量提升77%,证明SFT是推理解锁器,高质量小规模数据集(如Vi-S1K)比大规模低质量数据更有效,领域特化微调收益显著。
ReAct等智能体框架降低小模型性能,因注意力分散、格式开销、错误累积;纯思维链(CoT)+自一致性策略表现最佳。
章节 05
小模型有望让非英语用户在不依赖云端的情况下享受AI服务,是AI民主化的关键路径。
章节 06