Zing 论坛

正文

ANEP:面向新闻视频人名提取的确定性混合框架——IEEE CAI 2026 收录论文解读

马耳他大学研究团队提出ANEP(Accurate Name Extraction Pipeline),一个模块化、可解释的人名提取框架,结合YOLOv12目标检测、OCR和NER技术,从新闻视频字幕中自动提取人名。相比黑盒生成式模型,ANEP提供全链路可追溯性,在透明度和可审计性方面具有显著优势。

计算机视觉新闻视频分析人名提取YOLOv12OCR命名实体识别IEEE CAI可解释AI目标检测多模态
发布时间 2026/05/02 07:44最近活动 2026/05/02 09:43预计阅读 2 分钟
ANEP:面向新闻视频人名提取的确定性混合框架——IEEE CAI 2026 收录论文解读
1

章节 01

ANEP框架导读:面向新闻视频人名提取的确定性混合方案

马耳他大学研究团队提出ANEP(Accurate Name Extraction Pipeline),这是一个模块化、可解释的人名提取框架,结合YOLOv12目标检测、OCR和NER技术,从新闻视频字幕中自动提取人名。相比黑盒生成式模型,ANEP提供全链路可追溯性,在透明度和可审计性方面具有显著优势,该成果已被IEEE人工智能会议(CAI 2026)收录,并荣获2025年马耳他大学人工智能系最佳毕业设计奖。

2

章节 02

研究背景与问题:新闻视频人名提取的挑战

随着短视频与传统广电融合,视频新闻内容爆炸式增长,关键信息常以图形叠加层呈现,但字体、颜色、位置等风格多样,人工索引不切实际。用户研究显示59%受访者难以看清快节奏新闻中的人名,影响体验及内容归档、检索、事实核查。现有生成式多模态模型端到端提取信息,但黑盒特性导致错误难以追溯,在新闻领域的不可解释性是严重缺陷。

3

章节 03

ANEP框架:模块化架构与核心技术组件

ANEP核心理念为“确定性透明”,采用四阶段流水线:1.新闻图形检测(基于YOLOv12在自建NGD数据集微调,YOLOv12-medium达95.8% mAP@0.5);2.光学字符识别(自适应预处理应对噪声、模糊等问题);3.命名实体识别(Transformer-based NER,支持零样本多语言);4.人名聚类与时间线生成(合并同一人物的不同称呼变体,生成带时间戳的结构化时间线)。

4

章节 04

ANEP vs 生成式模型:性能与可解释性对比

研究团队将ANEP与Gemini 1.5、LLaMA 4 Maverick对比:Gemini 1.5 F1分数84.18%领先,但黑盒特性无法追溯错误;ANEP F1分数77.08%,精确率79.9%、召回率74.44%达到平衡,且避免生成式模型常见的幻觉问题,更符合新闻领域“宁可漏报不错报”的需求。

5

章节 05

NGD数据集贡献与实际部署场景

ANEP构建新闻图形数据集(NGD),人工标注涵盖传统电视台、社交媒体原生内容等多种来源风格,已开放于Roboflow平台。部署方面提供Web界面(上传视频、查看结果导出)和API接口,支持本地(满足隐私需求)与云端(应对大规模处理)两种模式。

6

章节 06

局限性与未来研究方向

当前ANEP主要支持Python编程语言,多语言支持及复杂图形样式适应性待提升。未来方向包括:扩展多语种新闻内容支持、引入时序信息提升人名关联准确性、探索与生成式模型的混合架构(兼顾可解释性与准确率)、构建交互式反馈机制辅助人工审核。

7

章节 07

结语:可解释性AI在高风险领域的价值

ANEP重新审视AI系统设计哲学,在新闻、医疗、法律等高风险领域,可解释性和可审计性与准确率同等重要。其模块化架构、全链路可追溯性及无幻觉特性,成为专业媒体机构和事实核查团队的理想工具,将随视频新闻增长发挥更大作用。