LLM | 33

在研究大模型以及多模态模型的时候，我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系也就是对于第P个生成位置，我们先给模型输入前P-1个 token，这里可能包括了提示词，系统提示词，图像token，已经输出的token等等。之后预测第P个token，在每一层每个 attention head 中，都可以得到一个 attention matrix；其中第P行表示当前位置对所有历史 token 的注意力分布，若对生成序列中的每个位置Q重复这一分析，就可以得到该层上所有 token 对其历史上下文的 attention 分布，从而形成整张 attention heatmap。我们可以很显然的得出来一张不同Q关于其他token的图像（多头结果通常会先聚合再归一化，以得到层级图）但是，这样做真的能展现出大模型真正能用到了这个attention分数吗？论文发现：对于生成错误的词汇，即一张棕色图像让大模型来描述，错误的输出blue这个词汇，blue的attention分数和其他token基本上无异—— 作者观察到，仅看 attention 分数时，幻觉词元与真实词元的模式差异并不稳定、也不显著为了更好的描述大模型是否真正使用了他们的attention，作者引入了”梯度“ 具体做法是：针对当前分析的目标 token，以其预测分布构造交叉熵，再将该 loss 反向传播到 attention matrix 上，得到 attention 对该 token 预测的敏感度梯度。他们提出saliency——定义 saliency = attention × gradient，用来衡量不同历史 token 对当前目标 token 预测的实际贡献强度。作者在 Qwen2-VL-7B 与 LLaVA-1.5-7B 上进一步验证：真实词元与幻觉词元在 saliency pattern 上存在统计显著差异，说明 hallucination 伴随可量化的上下文依赖退化现象，而 saliency 分析能够有效揭示这一点后面论文提出了两个实用的方法来缓解幻觉，这里不再过多说明，大家感兴趣再看 1：SGRS，在解码阶段基于 saliency 自适应阈值拒绝低 grounding 的候选 token；重要性在于它把分析信号直接转化成 test-time decoding policy，实现无需再训练的主动式 hallucination 预防。 2：LocoRE，通过增强下一步 query 对最近输出 token 的注意力来维持局部上下文连贯性；重要性在于它非常轻量、即插即用，而且明确针对论文识别出的“context forgetting”瓶颈，而不是泛泛地重分配视觉注意力。 ...