章节 01
东西方大模型代码能力对决:提示词变化影响生成质量导读
印度奇卡拉大学研究评估六款主流大语言模型(LLM)的代码生成表现,重点关注提示词形式变化对输出的影响。参与模型涵盖东西方厂商:西方的Claude 3.7 Sonnet、Gemini 2.0 Flash、GPT-4o;东方的GLM-4-Plus、MiniMax-M2、Kimi K2 Instruct。研究采用功能准确性、语法正确性、优化质量、响应效率四维评估框架,结果显示Claude 3.7 Sonnet以91.3%平均得分领跑,Kimi K2 Instruct紧随其后(88.6%),不同模型对提示词变化的鲁棒性差异显著。