<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>VLM on 33</title>
    <link>https://syl.moe5200.com/tags/vlm/</link>
    <description>Recent content in VLM on 33</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 33</copyright>
    <lastBuildDate>Sun, 28 Jun 2026 02:30:00 +0000</lastBuildDate>
    <atom:link href="https://syl.moe5200.com/tags/vlm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>判断幻觉还在看 attention sink 吗？直接用 saliency 判断大模型幻觉</title>
      <link>https://syl.moe5200.com/posts/deep-learning/saliency-for-llm-hallucination/</link>
      <pubDate>Sun, 28 Jun 2026 02:30:00 +0000</pubDate>
      <guid>https://syl.moe5200.com/posts/deep-learning/saliency-for-llm-hallucination/</guid>
      <description>&lt;p&gt;在研究大模型以及多模态模型的时候，我们通常使用做“信息流”——用 attention map 来观察 token 间依赖关系&lt;/p&gt;
&lt;p&gt;也就是对于第P个生成位置，我们先给模型输入前P-1个 token，这里可能包括了提示词，系统提示词，图像token，已经输出的token等等。&lt;/p&gt;
&lt;p&gt;之后预测第P个token，在每一层每个 attention head 中，都可以得到一个 attention matrix；其中第P行表示当前位置对所有历史 token 的注意力分布，若对生成序列中的每个位置Q重复这一分析，就可以得到该层上所有 token 对其历史上下文的 attention 分布，从而形成整张 attention heatmap。&lt;/p&gt;
&lt;p&gt;我们可以很显然的得出来一张不同Q关于其他token的图像
（多头结果通常会先聚合再归一化，以得到层级图）&lt;/p&gt;
&lt;p&gt;但是，这样做真的能展现出大模型真正能用到了这个attention分数吗？&lt;/p&gt;
&lt;p&gt;论文发现：对于生成错误的词汇，即一张棕色图像让大模型来描述，错误的输出blue这个词汇，blue的attention分数和其他token基本上无异——
作者观察到，仅看 attention 分数时，幻觉词元与真实词元的模式差异并不稳定、也不显著
为了更好的描述 大模型是否真正使用了他们的attention，作者引入了”梯度“
具体做法是：针对当前分析的目标 token，以其预测分布构造交叉熵，再将该 loss 反向传播到 attention matrix 上，得到 attention 对该 token 预测的敏感度梯度。&lt;/p&gt;
&lt;p&gt;他们提出saliency——定义 saliency = attention × gradient，用来衡量不同历史 token 对当前目标 token 预测的实际贡献强度。
作者在 Qwen2-VL-7B 与 LLaVA-1.5-7B 上进一步验证：真实词元与幻觉词元在 saliency pattern 上存在统计显著差异，说明 hallucination 伴随可量化的上下文依赖退化现象，而 saliency 分析能够有效揭示这一点&lt;/p&gt;
&lt;p&gt;后面论文提出了两个实用的方法来缓解幻觉，这里不再过多说明，大家感兴趣再看
1：SGRS，在解码阶段基于 saliency 自适应阈值拒绝低 grounding 的候选 token；重要性在于它把分析信号直接转化成 test-time decoding policy，实现无需再训练的主动式 hallucination 预防。
2：LocoRE，通过增强下一步 query 对最近输出 token 的注意力来维持局部上下文连贯性；重要性在于它非常轻量、即插即用，而且明确针对论文识别出的“context forgetting”瓶颈，而不是泛泛地重分配视觉注意力。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
