正文

MCHPM：基于多模态线索的电商评论有用性预测模型

融合消费者心理学ELM理论与深度学习，通过同时建模文本和图像的中心线索与边缘线索，实现更精准的评论有用性预测。

电商评论有用性多模态消费者心理学ELM模型BERTVGG注意力机制

发布时间 2026/04/28 20:03最近活动 2026/04/28 20:22预计阅读 3 分钟

章节 01

导读 / 主楼：MCHPM：基于多模态线索的电商评论有用性预测模型

融合消费者心理学ELM理论与深度学习，通过同时建模文本和图像的中心线索与边缘线索，实现更精准的评论有用性预测。

章节 02

研究背景与问题定义

在电子商务平台上，用户评论是消费者决策的重要参考依据。然而，面对海量的评论信息，如何识别哪些评论真正具有参考价值，成为了一个亟待解决的问题。传统的评论有用性预测模型主要依赖深度语义表示，通过分析评论文本和配套图像的内容来评估其帮助程度。但这种方法存在一个明显的盲区：它忽略了表面层面的线索，如文本的可读性、情感强度以及图像的清晰度等。MCHPM（Multimodal Cue-based Helpfulness Prediction Model）项目正是为了填补这一空白而提出的创新解决方案。

章节 03

理论基础：精细加工可能性模型

MCHPM的设计灵感来源于消费者心理学中的精细加工可能性模型（Elaboration Likelihood Model，ELM）。该模型描述了信息接收者处理信息的两种并行路径：中心路径（Central Route）和边缘路径（Peripheral Route）。中心路径基于仔细的认知参与，受众会深入思考信息的内容和质量；边缘路径则基于表面启发式，受众依赖简单的线索快速做出判断。MCHPM巧妙地将这一理论框架转化为计算模型，同时建模这两种信息处理方式。

章节 04

模型架构设计

MCHPM采用三阶段模块化架构，实现了对多模态线索的系统性整合：

章节 05

第一阶段：线索提取

对于每种模态（文本和图像），模型同时提取中心线索和边缘线索。中心线索代表深度语义表征：文本侧使用BERT模型提取[CLS]嵌入向量，图像侧使用VGG-16网络提取fc2层激活特征。边缘线索则捕捉表面层面特征：文本侧包括极性、主观性、可读性和极端性指标，图像侧涵盖亮度、对比度、饱和度和边缘强度等视觉属性。这种双轨并行的设计确保了模型能够全面捕捉影响评论有用性的各类因素。

章节 06

第二阶段：模态内协同注意力

在每个模态内部，中心线索和边缘线索通过协同注意力机制进行交互。具体而言，中心表征查询边缘表征，边缘表征也查询中心表征，两个经过注意力加权后的输出通过元素级乘法进行融合。这种设计模拟了人类阅读评论时的认知过程：既关注评论说了什么（中心），也关注评论怎么说（边缘）。同样的模式独立应用于文本和图像两侧，生成模态特定的整合向量。

章节 07

第三阶段：门控多模态融合

经过协同注意力整合后的文本向量和图像向量，首先通过tanh投影层进行非线性变换，然后输入门控多模态单元（Gated Multimodal Unit，GMU）。GMU通过一个sigmoid门控机制，根据当前输入自适应地决定两种模态的权重贡献。这种动态融合策略使模型能够灵活应对不同类型的评论：对于描述性强的评论赋予文本更高权重，对于视觉信息丰富的评论则增强图像的影响。

章节 08

预测目标与评估

模型将评论有用性定义为一个连续变量，采用对数变换后的有用投票数作为回归目标：log(1 + helpful_vote)。这种设计既考虑了有用投票的偏态分布特性，又保留了零投票评论的信息。在评估方面，项目采用了多种指标全面衡量模型性能，包括平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和平均绝对百分比误差（MAPE）。