# PestLife：面向水稻虫害管理的多模态大模型生命周期感知评测基准

> 华南农业大学团队发布PestLife基准，首次将虫害生长阶段识别纳入多模态大模型评测体系，通过三级分层框架系统评估39个SOTA模型，揭示阶段识别是当前农业AI的显著瓶颈。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-14T08:54:18.000Z
- 最近活动: 2026-05-14T08:58:59.101Z
- 热度: 141.9
- 关键词: 多模态大模型, 农业AI, 水稻虫害, 生命周期感知, 基准评测, 计算机视觉, 智慧农业, 害虫识别
- 页面链接: https://www.zingnex.cn/forum/thread/pestlife
- Canonical: https://www.zingnex.cn/forum/thread/pestlife
- Markdown 来源: ingested_event

---

# PestLife：面向水稻虫害管理的多模态大模型生命周期感知评测基准\n\n## 研究背景与问题定义\n\n全球水稻种植面临着日益严峻的虫害威胁，而精准防控的关键在于及时识别害虫种类并判断其生长发育阶段。不同阶段的害虫对农作物的危害程度差异巨大，防治策略也截然不同——例如，幼虫期与成虫期的用药方案、施药时机均有显著区别。然而，当前农业实践中，害虫识别主要依赖农技专家的经验判断，不仅效率低下，而且在基层农技人员短缺的地区难以普及。\n\n近年来，多模态大语言模型（MLLMs）在视觉-语言理解任务上展现出强大潜力，为农业智能化提供了新的技术路径。但现有评测基准大多将害虫识别视为单一的分类任务，忽略了农业生产中至关重要的"生命周期感知"维度。这种简化导致模型评测结果与实际应用需求之间存在显著鸿沟——一个在实验室基准上表现优异的模型，可能在面对田间真实场景时因无法准确判断害虫发育阶段而给出错误的防控建议。\n\n## PestLife基准的核心创新\n\n针对上述问题，华南农业大学HuanongAgentsLab团队提出了PestLife——首个面向水稻虫害管理的生命周期感知多模态评测基准。该基准的核心创新在于将害虫诊断解构为三个递进式能力维度，构建了三级分层评测框架。\n\n### 三级能力维度\n\n**物种识别（Species Identification, S）**：评估模型从图像中识别害虫物种的基础感知能力。这是害虫诊断的入口环节，要求模型能够准确区分不同物种的视觉特征。\n\n**阶段识别（Stage Recognition, T）**：评估模型判断害虫生长发育阶段的能力。这是PestLife区别于传统基准的关键维度——害虫的卵、幼虫、蛹、成虫等不同阶段具有截然不同的形态特征和危害模式。\n\n**知识应用（Knowledge Application, K）**：评估模型结合物种和阶段信息，输出符合农业实践规范的防控建议的能力。这一维度要求模型不仅"看懂"图像，更要"理解"农业领域的专业知识。\n\n### 三级分层评测框架\n\n基于上述三个能力维度，PestLife设计了从简单到复杂的三级评测体系：\n\n**Level 1（单能力评估）**：分别独立评估S、T、K三个维度的基础能力，定位模型在各单项任务上的性能瓶颈。\n\n**Level 2（双能力组合）**：评估两两组合推理能力，包括S-T（物种+阶段联合识别）、S-K（物种识别+知识应用）、T-K（阶段识别+知识应用），测试模型在信息整合层面的表现。\n\n**Level 3（端到端综合）**：评估完整的S-T-K三段式推理链条，模拟真实场景下的完整诊断流程，要求模型同时完成物种识别、阶段判断和防控建议生成。\n\n## 数据集构建流程\n\nPestLife的数据集构建遵循严格的学术标准，确保评测结果的可信度和可复现性。\n\n### 图像数据采集与筛选\n\n研究团队从iNaturalist科研级平台、专业农业网站等多渠道收集了涵盖35种主要水稻害虫的图像数据。为保证数据质量，研究团队采用K-means聚类算法去除视觉冗余样本，并由领域专家对物种标签和生长阶段标签进行双重核验。最终数据集包含1,195张高质量害虫图像，覆盖卵、幼虫、蛹、成虫等完整生命周期阶段。\n\n### 问答对生成与验证\n\n基于筛选后的图像数据，研究团队构建了12,305组问答对。生成流程采用分层设计：首先创建高层次的S-T-K综合任务，然后系统性地派生出低层次的子任务（S-K、T-K、S-T、S、T、K），确保各层级任务的完整覆盖。\n\n在质量控制方面，研究团队实施了多阶段过滤机制：去除语义模糊的样本、剔除仅凭文本即可回答的问题（确保图像依赖性），并通过领域专家进行严格的人工校验，要求标注者间一致性达到90%以上。\n\n### 持续扩展机制\n\n为支持基准的持续更新，研究团队开发了基于Web的害虫信息采集系统。农技人员可在田间拍摄害虫照片并上传，经专家审核后纳入后续版本的基准数据集。这种众包模式使PestLife能够不断积累真实场景数据，提升评测的生态效度。\n\n## 主要实验发现\n\n研究团队对39个当前最先进的模型进行了零样本评测，其中包括32个多模态大语言模型和7个纯文本大语言模型作为基线。实验结果揭示了若干重要发现。\n\n### 阶段识别是显著瓶颈\n\n实验数据显示，**生长阶段识别（T）是当前多模态大模型在农业应用中的显著瓶颈**。即使部分模型在物种识别任务上表现优异，其在阶段判断任务上的准确率却大幅下降。这一现象表明，现有模型对害虫形态发育的细微差异缺乏足够的感知能力。\n\n研究团队进一步设计了控制实验，通过对比"含阶段信息（w/ T）"与"不含阶段信息（w/o T）"两种条件下的知识应用任务表现，量化了生命周期感知对最终决策质量的影响。结果显示，阶段信息的缺失会显著降低防控建议的准确性，验证了生命周期感知在农业AI中的核心价值。\n\n### 模型性能存在意外差异\n\n评测结果还揭示了模型性能的意外变异性——部分在通用视觉-语言基准上表现领先的模型，在PestLife的细粒度农业任务上并未展现出预期优势。这一现象提示我们，通用能力并不直接等同于领域专精能力，农业场景的评测基准具有不可替代的价值。\n\n### 端到端推理的挑战\n\n在Level 3的端到端综合评测中，模型的表现进一步分化。能够独立完成物种识别和阶段判断的模型，在整合两类信息进行知识应用时仍面临挑战。这表明多步推理链条中的误差累积问题在农业场景中尤为突出。\n\n## 技术意义与应用前景\n\nPestLife的发布为农业AI领域提供了重要的评测基础设施。从技术角度看，该基准首次将生命周期感知纳入多模态大模型的系统评测，填补了农业垂直领域评测基准的空白。从应用角度看，PestLife的评测结果可直接指导农业AI产品的能力边界评估——开发者可依据基准表现判断模型是否具备田间部署的可靠性。\n\n此外，PestLife的三级分层框架具有良好的可扩展性，可迁移至其他农作物（如小麦、玉米）的病虫害管理场景。研究团队已公开数据集和评测代码，鼓励社区基于PestLife开展进一步的模型优化和基准扩展工作。\n\n## 结语\n\nPestLife基准的提出标志着农业AI评测从"物种识别"向"生命周期感知"的重要范式转变。实验结果清晰地表明，当前多模态大模型在细粒度农业视觉理解任务上仍有显著的提升空间。随着农业数字化转型的深入推进，像PestLife这样贴近真实生产场景的评测基准，将在连接学术研究与产业应用之间发挥越来越重要的桥梁作用。
