正文

FSE 2026 论文复现：多模态大语言模型自动识别界面可用性问题

格拉茨工业大学研究团队开源了FSE 2026论文的完整复现数据，展示如何利用MLLM分析屏幕录制视频来自动识别可用性问题并给出改进建议。

MLLM可用性评估UI/UX软件工程FSE 2026多模态大模型Nielsen启发式原则用户界面自动化测试

发布时间 2026/04/10 22:05最近活动 2026/04/10 22:50预计阅读 2 分钟

章节 01

导读：MLLM自动识别界面可用性问题的FSE 2026研究复现

格拉茨工业大学研究团队开源FSE 2026论文完整复现数据，展示如何利用多模态大语言模型（MLLM）分析屏幕录制视频，基于Nielsen启发式原则自动识别界面可用性问题并给出排序后的改进建议。该方法旨在降低可用性评估门槛，为资源有限的团队提供实用的UI/UX优化方案。

章节 02

传统可用性评估需专业专家、大量时间和资源，对小型团队构成挑战。随着MLLM视觉理解能力的发展，研究社区探索其自动化可用性评估的潜力。本研究成果已被软件工程基础国际研讨会（FSE 2026）接收。

章节 03

提出创新自动化方法：输入应用上下文信息和用户交互录屏，MLLM基于Nielsen十大可用性启发式原则识别问题，提供详细解释和改进建议，并按严重程度排序。优势在于无需专家介入，仅需基础描述和录屏即可获得结构化分析报告。

章节 04

在两个实际应用验证方法有效性：

章节 05

开展软件工程师用户研究，评估最高优先级建议的实用性、准确性和可操作性。结果显示该方法具有低投入改进潜力，虽不能完全替代传统评估，但可作为补充手段。建议包含问题描述、违反原则、严重程度和改进方案，为开发者提供清晰修复路径。

章节 06

提供完整复现包：原始录屏与任务描述、JSON格式分析报告、评估Notebook（浏览/复现模式）、匿名用户研究数据。复现流程：克隆仓库→创建虚拟环境→安装依赖→运行Jupyter Notebook。

章节 07

意义：降低评估门槛，拓展MLLM在软件工程的应用场景，为工具集成奠基。局限性：MLLM可能遗漏特定上下文问题，依赖视频质量。未来方向：扩展至移动端/AR/VR界面、动态评估、精细严重程度模型。