Zing 论坛

正文

大语言模型实测:电影检索、长文本理解与图像转写的性能对比

本文基于yixy的LLM基准测试项目,深入分析DeepSeek、Gemini、豆包等主流大模型在电影信息检索、长文本语义理解和图像结构转写等任务上的表现差异,为模型选型提供实证参考。

大语言模型基准测试DeepSeekGemini豆包模型评估多模态长文本理解ChatGPTAI对比
发布时间 2026/06/05 08:39最近活动 2026/06/05 08:52预计阅读 3 分钟
大语言模型实测:电影检索、长文本理解与图像转写的性能对比
1

章节 01

【导读】主流大语言模型多任务性能对比实证分析

基于yixy维护的开源项目llm-benchmark(来源:GitHub,发布时间2026年6月),本文对DeepSeek、Gemini、豆包等主流大语言模型在电影信息检索、长文本语义理解、图像结构转写三个任务的表现进行横向对比,为模型选型提供实证参考。测试时间为2026年5月。

2

章节 02

背景:为什么需要大语言模型基准测试?

随着ChatGPT、DeepSeek等模型涌现,开发者面临选型难题——模型宣传亮点与实际表现因任务而异。llm-benchmark通过针对性测试用例,揭示不同模型在实际应用中的能力差异,帮助用户选择适合需求的模型。

3

章节 03

测试对象与方法

测试对象

模型 提供商 测试版本
DeepSeek DeepSeek 专家模式
Gemini Google 3.1 Pro
豆包 字节跳动 专家+超能模式
ChatGPT OpenAI -
腾讯元宝 腾讯 -

测试覆盖电影信息检索、长文本语义理解、图像结构转写三个维度。

4

章节 04

证据1:电影信息检索任务表现

测试设计:通过模糊电影情节描述(2000-2012年美国科幻片,AI介入生活、伪造视频取代政府等),要求模型识别电影并输出JSON结果。 结果

  • DeepSeek:稳定识别《Eyeborgs》(置信度100%),备选《鹰眼》(60%),格式规范;
  • 豆包:偶尔正确但稳定性差,响应时间长。 关键发现:DeepSeek在知识推理任务上更稳定可靠。
5

章节 05

证据2:长文本语义理解任务表现

测试设计:使用替换"刘备"为"马备"的《三国演义》文本,要求输出梗概及含"大司马曰"的句子。 结果

  • DeepSeek:未识别替换,提取4处引用,完整性好;
  • Gemini:未识别替换,仅提取3处引用,梗概完整。 关键发现:模型对人为修改文本的异常模式敏感度不足,长文本细节提取仍有提升空间。
6

章节 06

证据3:图像识别与结构转写任务表现

测试设计:将树形结构示意图转为Mermaid图表和ASCII流程图。 结果

  • Mermaid格式:所有模型均失败;
  • ASCII流程图:Gemini表现最佳,能清晰呈现层级关系和连接方式。 关键发现:Gemini原生多模态能力领先,但模型在精确结构化输出(如Mermaid)上仍有局限。
7

章节 07

结论与选型建议

DeepSeek:优势为知识检索/推理稳定、长文本细节提取完整、响应快;适用场景:知识问答、文献检索、生产环境。 Gemini:优势为多模态能力领先、文本生成质量高;适用场景:图文混合任务、图像分析、创意写作。 豆包:优势为中文优化好、功能丰富;注意事项:复杂推理响应慢、稳定性待提升;适用场景:中文对话、日常问答。

8

章节 08

测试方法论启示与结语

方法论启示

  1. 任务设计需针对性(聚焦实际场景);
  2. 对抗性测试(如替换人名)可暴露模型鲁棒性;
  3. 需多维度评估(知识、推理、多模态等)。 结语:没有全能模型,需按需选择;当前模型存在局限性,社区协作的基准测试有助于理解模型能力边界。