判断幻觉还在看 attention sink 吗?直接用 saliency 判断大模型幻觉

在研究大模型以及多模态模型的时候,我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系 也就是对于第P个生成位置,我们先给模型输入前P-1个 token,这里可能包括了提示词,系统提示词,图像token,已经输出的token等等。 之后预测第P个token,在每一层每个 attention head 中,都可以得到一个 attention matrix;其中第P行表示当前位置对所有历史 token 的注意力分布,若对生成序列中的每个位置Q重复这一分析,就可以得到该层上所有 token 对其历史上下文的 attention 分布,从而形成整张 attention heatmap。 我们可以很显然的得出来一张不同Q关于其他token的图像 (多头结果通常会先聚合再归一化,以得到层级图) 但是,这样做真的能展现出大模型真正能用到了这个attention分数吗? 论文发现:对于生成错误的词汇,即一张棕色图像让大模型来描述,错误的输出blue这个词汇,blue的attention分数和其他token基本上无异—— 作者观察到,仅看 attention 分数时,幻觉词元与真实词元的模式差异并不稳定、也不显著 为了更好的描述 大模型是否真正使用了他们的attention,作者引入了”梯度“ 具体做法是:针对当前分析的目标 token,以其预测分布构造交叉熵,再将该 loss 反向传播到 attention matrix 上,得到 attention 对该 token 预测的敏感度梯度。 他们提出saliency——定义 saliency = attention × gradient,用来衡量不同历史 token 对当前目标 token 预测的实际贡献强度。 作者在 Qwen2-VL-7B 与 LLaVA-1.5-7B 上进一步验证:真实词元与幻觉词元在 saliency pattern 上存在统计显著差异,说明 hallucination 伴随可量化的上下文依赖退化现象,而 saliency 分析能够有效揭示这一点 后面论文提出了两个实用的方法来缓解幻觉,这里不再过多说明,大家感兴趣再看 1:SGRS,在解码阶段基于 saliency 自适应阈值拒绝低 grounding 的候选 token;重要性在于它把分析信号直接转化成 test-time decoding policy,实现无需再训练的主动式 hallucination 预防。 2:LocoRE,通过增强下一步 query 对最近输出 token 的注意力来维持局部上下文连贯性;重要性在于它非常轻量、即插即用,而且明确针对论文识别出的“context forgetting”瓶颈,而不是泛泛地重分配视觉注意力。 ...

2026-06-28 · 1 min · 83 words · 33