判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉

Sun, 28 Jun 2026 02:30:00 +0000

在研究大模型以及多模态模型的时候，我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系

也就是对于第P个生成位置，我们先给模型输入前P-1个 token，这里可能包括了提示词，系统提示词，图像token，已经输出的token等等。

之后预测第P个token，在每一层每个 attention head 中，都可以得到一个 attention matrix；其中第P行表示当前位置对所有历史 token 的注意力分布，若对生成序列中的每个位置Q重复这一分析，就可以得到该层上所有 token 对其历史上下文的 attention 分布，从而形成整张 attention heatmap。

我们可以很显然的得出来一张不同Q关于其他token的图像（多头结果通常会先聚合再归一化，以得到层级图）

但是，这样做真的能展现出大模型真正能用到了这个attention分数吗？

论文发现：对于生成错误的词汇，即一张棕色图像让大模型来描述，错误的输出blue这个词汇，blue的attention分数和其他token基本上无异—— 作者观察到，仅看 attention 分数时，幻觉词元与真实词元的模式差异并不稳定、也不显著为了更好的描述大模型是否真正使用了他们的attention，作者引入了”梯度“ 具体做法是：针对当前分析的目标 token，以其预测分布构造交叉熵，再将该 loss 反向传播到 attention matrix 上，得到 attention 对该 token 预测的敏感度梯度。

他们提出saliency——定义 saliency = attention × gradient，用来衡量不同历史 token 对当前目标 token 预测的实际贡献强度。作者在 Qwen2-VL-7B 与 LLaVA-1.5-7B 上进一步验证：真实词元与幻觉词元在 saliency pattern 上存在统计显著差异，说明 hallucination 伴随可量化的上下文依赖退化现象，而 saliency 分析能够有效揭示这一点

后面论文提出了两个实用的方法来缓解幻觉，这里不再过多说明，大家感兴趣再看 1：SGRS，在解码阶段基于 saliency 自适应阈值拒绝低 grounding 的候选 token；重要性在于它把分析信号直接转化成 test-time decoding policy，实现无需再训练的主动式 hallucination 预防。 2：LocoRE，通过增强下一步 query 对最近输出 token 的注意力来维持局部上下文连贯性；重要性在于它非常轻量、即插即用，而且明确针对论文识别出的“context forgetting”瓶颈，而不是泛泛地重分配视觉注意力。

VLM on 33

判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉