# 大语言模型实测：电影检索、长文本理解与图像转写的性能对比

> 本文基于yixy的LLM基准测试项目，深入分析DeepSeek、Gemini、豆包等主流大模型在电影信息检索、长文本语义理解和图像结构转写等任务上的表现差异，为模型选型提供实证参考。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-05T00:39:53.000Z
- 最近活动: 2026-06-05T00:52:50.027Z
- 热度: 163.8
- 关键词: 大语言模型, 基准测试, DeepSeek, Gemini, 豆包, 模型评估, 多模态, 长文本理解, ChatGPT, AI对比
- 页面链接: https://www.zingnex.cn/forum/thread/llm-github-yixy-llm-benchmark
- Canonical: https://www.zingnex.cn/forum/thread/llm-github-yixy-llm-benchmark
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：yixy
- 来源平台：github
- 原始标题：llm-benchmark
- 原始链接：https://github.com/yixy/llm-benchmark
- 来源发布时间/更新时间：2026-06-05T00:39:53Z

## 原作者与来源\n\n- **原作者/维护者**：yixy\n- **来源平台**：GitHub\n- **原始标题**：llm-benchmark\n- **原始链接**：https://github.com/yixy/llm-benchmark\n- **发布时间**：2026年6月\n\n---\n\n## 引言：为什么需要大语言模型基准测试？\n\n随着ChatGPT、DeepSeek、Gemini、豆包等大语言模型如雨后春笋般涌现，开发者和用户面临一个共同的问题：如何在众多模型中选择最适合自己需求的？每个模型都有其宣传亮点，但实际表现往往因任务类型而异。\n\n本文介绍的开源项目llm-benchmark由开发者yixy维护，通过设计一系列具有挑战性的测试用例，对主流大语言模型进行横向对比评估。测试覆盖电影信息检索、长文本语义理解和图像结构转写三个维度，揭示了不同模型在实际应用中的能力差异。\n\n---\n\n## 一、测试对象与环境\n\n项目测试了以下主流大语言模型：\n\n| 模型 | 提供商 | 测试版本 |
|------|--------|----------|
| DeepSeek | DeepSeek | 专家模式 |
| Gemini | Google | 3.1 Pro |
| 豆包 | 字节跳动 | 专家+超能模式 |
| ChatGPT | OpenAI | - |
| 腾讯元宝 | 腾讯 | - |
\n测试时间：2026年5月\n\n---\n\n## 二、测试一：电影信息检索\n\n### 2.1 测试设计\n\n这是一项考验模型知识库和推理能力的任务。测试者提供了一段模糊的电影情节描述，要求模型识别出对应的电影名称。\n\n**输入提示**：\n> 你是一个电影专家，阅片无数。现在需要寻找一部科幻电影，电影是2000年之后，2012年之前的，应该是美国电影。内容涉及人工智能通过监控摄像头深度介入人类生活，通过伪造视频影像取代政府，剧情高潮是主角到达本该总统出席的会议现场，却发现空无一人。影片最后是个开放结局，发现真相的主角开始逃亡。\n> \n> 要求：仅输出json源代码格式，包含一个数组，数组中每个对象的属性有电影中文名、电影英文名、可能性（0-100）。\n\n### 2.2 测试结果分析\n\n**DeepSeek（专家模式）**：\n- 正确识别出电影《Eyeborgs》（眼球战机/机器的叛变），置信度100%\n- 同时给出了备选《鹰眼》（Eagle Eye），置信度60%\n- 表现稳定，JSON格式规范\n\n**豆包（专家+超能模式）**：\n- 偶尔能返回正确结果，但稳定性较差\n- 响应时间明显长于其他模型\n- 说明在处理复杂推理任务时，豆包的超能模式可能存在效率与准确率的权衡问题\n\n**关键发现**：电影检索任务考验模型的知识广度和推理能力。DeepSeek在此类需要综合知识推理的任务上表现更为稳定可靠。\n\n---\n\n## 三、测试二：长文本语义理解\n\n### 3.1 测试设计\n\n这项测试评估模型处理长文本的准确性和细节捕捉能力。测试使用《三国演义》文本（经过特殊处理，将\"刘备\"替换为\"马备\"以检验细粒度理解），要求模型：\n1. 输出故事梗概\n2. 找出所有包含\"大司马曰\"的句子及其上下文\n\n### 3.2 测试结果对比\n\n**DeepSeek-Pro-V4**：\n- 未能识别\"马备\"应为\"刘备\"的替换\n- 成功提取了4处\"大司马曰\"及其上下文\n- 引用完整性较好\n\n**Gemini 3.1 Pro**：\n- 同样未能识别\"马备\"替换\n- 只提取了3处引用，遗漏了1处\n- 故事梗概生成较为完整\n\n**关键发现**：\n\n1. **人名识别问题**：两个模型都未能识别出\"马备\"是\"刘备\"的变体，说明模型在处理经过人为修改的文本时，缺乏对异常模式的敏感度。\n\n2. **长文本细节提取**：DeepSeek在细节提取的完整性上略胜一筹，但两者都存在遗漏。这表明即使是顶级大模型，在处理长文本的细粒度信息提取时仍有提升空间。\n\n3. **上下文理解**：模型能够正确理解\"大司马曰\"的语义角色，并提取合理的上下文范围，说明其对古典文学的语言模式有一定的学习。\n\n---\n\n## 四、测试三：图像识别与结构转写\n\n### 4.1 测试设计\n\n这项测试评估模型的多模态能力，要求将树形数据结构的示意图转换为文本表示格式，包括：\n- Mermaid图表格式\n- ASCII文本流程图\n\n测试图像包含三种树结构的表示方式：双亲表示法、孩子链表表示法、孩子兄弟表示法（左孩子右兄弟）。\n\n### 4.2 测试结果\n\n**Mermaid格式**：所有模型表现都不理想，无法正确生成可渲染的Mermaid代码。\n\n**ASCII文本流程图**：\n- **Gemini 3.1 Pro**：表现最佳，能够生成结构清晰、对齐良好的ASCII流程图\n- 生成的图示完整呈现了树节点的层级关系和连接方式\n- 在包含双亲信息的孩子链表表示中也能正确处理额外字段\n\n**关键发现**：\n\n1. **多模态能力差异**：Gemini作为原生多模态模型，在图像理解任务上展现出明显优势。\n\n2. **结构化输出挑战**：即使是表现最好的Gemini，在生成严格格式化的Mermaid代码时仍然失败，说明当前大模型在精确结构化输出方面仍有局限。\n\n3. **ASCII艺术生成**：ASCII流程图生成相对成功，可能是因为这种格式对语法严格性的要求较低，允许一定的排版灵活性。\n\n---\n\n## 五、综合评估与选型建议\n\n基于以上测试结果，可以得出以下模型选型建议：\n\n### 5.1 DeepSeek\n**优势**：\n- 知识检索和推理任务表现稳定\n- 长文本细节提取完整性好\n- 响应速度较快\n\n**适用场景**：知识问答、文献检索、需要稳定输出的生产环境\n\n### 5.2 Gemini\n**优势**：\n- 多模态能力领先，图像理解准确\n- 文本生成质量高\n- 长文本处理能力强\n\n**适用场景**：图文混合任务、需要图像分析的应用、创意写作\n\n### 5.3 豆包\n**优势**：\n- 中文优化较好\n- 超能模式功能丰富\n\n**注意事项**：复杂推理任务响应时间较长，稳定性有待提升\n\n**适用场景**：中文对话、日常问答、对响应时间要求不高的场景\n\n---\n\n## 六、测试方法论启示\n\n这个项目展示了大语言模型评估的几个重要原则：\n\n### 6.1 任务设计的针对性\n\n有效的基准测试应该针对具体应用场景设计任务，而不是仅使用通用指标。电影检索、长文本理解、图像转写都是实际应用中常见的需求。\n\n### 6.2 对抗性测试的价值\n\n通过\"马备\"替换等对抗性设计，可以检验模型的鲁棒性和细粒度理解能力。这种测试比标准数据集更能暴露模型的真实水平。\n\n### 6.3 多维度评估的必要性\n\n不同模型在不同维度上各有优劣，单一指标无法全面反映模型能力。综合评估知识检索、推理、多模态、长文本等多个维度，才能做出合理的选型决策。\n\n---\n\n## 结语：理性看待大模型能力\n\n大语言模型技术日新月异，但基准测试提醒我们：没有\"全能\"的模型，只有\"适合\"的模型。DeepSeek在知识检索上稳定可靠，Gemini在多模态任务中领先，每个模型都有其擅长和不擅长的领域。\n\n对于开发者和用户而言，重要的是理解自己的需求，参考实际测试结果，选择最适合的模型。同时，也要认识到当前大模型的局限性——它们可能在某些任务上表现惊艳，在另一些任务上却漏洞百出。\n\n这个开源基准测试项目为我们提供了宝贵的实证数据，也展示了社区协作推动技术进步的力量。期待未来有更多类似的测试项目，帮助我们更全面地理解和评估大语言模型的能力边界。