正文

大语言模型实测：电影检索、长文本理解与图像转写的性能对比

本文基于yixy的LLM基准测试项目，深入分析DeepSeek、Gemini、豆包等主流大模型在电影信息检索、长文本语义理解和图像结构转写等任务上的表现差异，为模型选型提供实证参考。

大语言模型基准测试DeepSeekGemini豆包模型评估多模态长文本理解ChatGPTAI对比

发布时间 2026/06/05 08:39最近活动 2026/06/05 08:52预计阅读 3 分钟

章节 01

【导读】主流大语言模型多任务性能对比实证分析

基于yixy维护的开源项目llm-benchmark（来源：GitHub，发布时间2026年6月），本文对DeepSeek、Gemini、豆包等主流大语言模型在电影信息检索、长文本语义理解、图像结构转写三个任务的表现进行横向对比，为模型选型提供实证参考。测试时间为2026年5月。

章节 02

背景：为什么需要大语言模型基准测试？

随着ChatGPT、DeepSeek等模型涌现，开发者面临选型难题——模型宣传亮点与实际表现因任务而异。llm-benchmark通过针对性测试用例，揭示不同模型在实际应用中的能力差异，帮助用户选择适合需求的模型。

章节 03

测试对象与方法

测试对象：

模型	提供商	测试版本
DeepSeek	DeepSeek	专家模式
Gemini	Google	3.1 Pro
豆包	字节跳动	专家+超能模式
ChatGPT	OpenAI	-
腾讯元宝	腾讯	-

测试覆盖电影信息检索、长文本语义理解、图像结构转写三个维度。

章节 04

证据1：电影信息检索任务表现

测试设计：通过模糊电影情节描述（2000-2012年美国科幻片，AI介入生活、伪造视频取代政府等），要求模型识别电影并输出JSON结果。结果：

DeepSeek：稳定识别《Eyeborgs》（置信度100%），备选《鹰眼》（60%），格式规范；
豆包：偶尔正确但稳定性差，响应时间长。 关键发现：DeepSeek在知识推理任务上更稳定可靠。

章节 05

证据2：长文本语义理解任务表现

测试设计：使用替换"刘备"为"马备"的《三国演义》文本，要求输出梗概及含"大司马曰"的句子。结果：

DeepSeek：未识别替换，提取4处引用，完整性好；
Gemini：未识别替换，仅提取3处引用，梗概完整。 关键发现：模型对人为修改文本的异常模式敏感度不足，长文本细节提取仍有提升空间。

章节 06

证据3：图像识别与结构转写任务表现

测试设计：将树形结构示意图转为Mermaid图表和ASCII流程图。结果：

Mermaid格式：所有模型均失败；
ASCII流程图：Gemini表现最佳，能清晰呈现层级关系和连接方式。 关键发现：Gemini原生多模态能力领先，但模型在精确结构化输出（如Mermaid）上仍有局限。

章节 07

结论与选型建议

DeepSeek：优势为知识检索/推理稳定、长文本细节提取完整、响应快；适用场景：知识问答、文献检索、生产环境。 Gemini：优势为多模态能力领先、文本生成质量高；适用场景：图文混合任务、图像分析、创意写作。豆包：优势为中文优化好、功能丰富；注意事项：复杂推理响应慢、稳定性待提升；适用场景：中文对话、日常问答。

章节 08