章节 01
正文
终端智能体基准测试的认知复杂度视角:什么是好的评测任务?
本文从认知复杂度视角探讨了终端智能体基准测试任务的设计原则,提出了包含规划深度、工作记忆需求和知识整合等多维度的任务设计框架,为开发更有效的终端智能体评测协议提供了指导。
terminal agentbenchmark designcognitive complexitytask evaluationAI assessmentplanning depthworking memoryknowledge integration