章节 01
ANEP框架导读:面向新闻视频人名提取的确定性混合方案
马耳他大学研究团队提出ANEP(Accurate Name Extraction Pipeline),这是一个模块化、可解释的人名提取框架,结合YOLOv12目标检测、OCR和NER技术,从新闻视频字幕中自动提取人名。相比黑盒生成式模型,ANEP提供全链路可追溯性,在透明度和可审计性方面具有显著优势,该成果已被IEEE人工智能会议(CAI 2026)收录,并荣获2025年马耳他大学人工智能系最佳毕业设计奖。
正文
马耳他大学研究团队提出ANEP(Accurate Name Extraction Pipeline),一个模块化、可解释的人名提取框架,结合YOLOv12目标检测、OCR和NER技术,从新闻视频字幕中自动提取人名。相比黑盒生成式模型,ANEP提供全链路可追溯性,在透明度和可审计性方面具有显著优势。
章节 01
马耳他大学研究团队提出ANEP(Accurate Name Extraction Pipeline),这是一个模块化、可解释的人名提取框架,结合YOLOv12目标检测、OCR和NER技术,从新闻视频字幕中自动提取人名。相比黑盒生成式模型,ANEP提供全链路可追溯性,在透明度和可审计性方面具有显著优势,该成果已被IEEE人工智能会议(CAI 2026)收录,并荣获2025年马耳他大学人工智能系最佳毕业设计奖。
章节 02
随着短视频与传统广电融合,视频新闻内容爆炸式增长,关键信息常以图形叠加层呈现,但字体、颜色、位置等风格多样,人工索引不切实际。用户研究显示59%受访者难以看清快节奏新闻中的人名,影响体验及内容归档、检索、事实核查。现有生成式多模态模型端到端提取信息,但黑盒特性导致错误难以追溯,在新闻领域的不可解释性是严重缺陷。
章节 03
ANEP核心理念为“确定性透明”,采用四阶段流水线:1.新闻图形检测(基于YOLOv12在自建NGD数据集微调,YOLOv12-medium达95.8% mAP@0.5);2.光学字符识别(自适应预处理应对噪声、模糊等问题);3.命名实体识别(Transformer-based NER,支持零样本多语言);4.人名聚类与时间线生成(合并同一人物的不同称呼变体,生成带时间戳的结构化时间线)。
章节 04
研究团队将ANEP与Gemini 1.5、LLaMA 4 Maverick对比:Gemini 1.5 F1分数84.18%领先,但黑盒特性无法追溯错误;ANEP F1分数77.08%,精确率79.9%、召回率74.44%达到平衡,且避免生成式模型常见的幻觉问题,更符合新闻领域“宁可漏报不错报”的需求。
章节 05
ANEP构建新闻图形数据集(NGD),人工标注涵盖传统电视台、社交媒体原生内容等多种来源风格,已开放于Roboflow平台。部署方面提供Web界面(上传视频、查看结果导出)和API接口,支持本地(满足隐私需求)与云端(应对大规模处理)两种模式。
章节 06
当前ANEP主要支持Python编程语言,多语言支持及复杂图形样式适应性待提升。未来方向包括:扩展多语种新闻内容支持、引入时序信息提升人名关联准确性、探索与生成式模型的混合架构(兼顾可解释性与准确率)、构建交互式反馈机制辅助人工审核。
章节 07
ANEP重新审视AI系统设计哲学,在新闻、医疗、法律等高风险领域,可解释性和可审计性与准确率同等重要。其模块化架构、全链路可追溯性及无幻觉特性,成为专业媒体机构和事实核查团队的理想工具,将随视频新闻增长发挥更大作用。