区域选择性融合网络

前言

论文来源: Region Selective Fusion Network for Robust RGB-T Tracking

可见光与热红外模态的融合, 为算法提供了更多的信息, 从而提高算法的准确率. 但是由于模态中场景的高度重叠, RGBT 数据中必然包含大量冗余信息. 同时每个模态的质量都会随时变化, 这意味着更多的误导信息. 本文将图像视为一个个不重叠的区域, 消除不可靠区域的误导信息, 保留高质量区域, 使算法专注于高质量特征.

方法

以 $z$ 表示模板, $x$ 表示搜索区域, 则它们能够表示为

\begin{array}{ll} Z_m = [z_m^1\bm{E}; z_m^2\bm{E}; \cdots, z_m^{N_z}\bm{E}] + \bm{P}_z \\ X_m = [x_m^1\bm{E}; x_m^2\bm{E}; \cdots, x_m^{N_x}\bm{E}] + \bm{P}_x \end{array}

其中 $\bm P$ 为位置嵌入, $\bm E$ 是投影矩阵, $N$ 是 patch 数量. 同时候选区域的特征还需要加上令牌, 初始为 $1.0$ .

图中的 Stage 表示区域选择性融合网络的三个阶段. 三个阶段均包含 $N(N=3, 4, 3)$ 个三重交互模块和一个区域移除模块. 其中三重交互模块使用了多头注意力. 三重交互模块输出的结果会包含大量冗余, 而区域移除模块使用可靠性得分来移除不可靠的区域.

以第 $i$ 个 RGB 模态的区域令牌 $t_{rgb}^i$ 为例:

r(t_{rgb}^i) = {Norm}_i \left[ \alpha_1 \sum\limits_{j=1}^{N_x}(W_{x_{rgb} \rightarrow x_{rgb}} [i, j]) + \alpha_2 \sum\limits_{j=1}^{N_x}(W_{x_{rgb} \rightarrow x_{ir}} [i, j]) + \alpha_3 \sum\limits_{j=1}^{N_x}(W_{x_{rgb} \rightarrow z} [i, j]) \right]

其中 ${Norm}_i$ 表示归一化, $x_{rgb} \rightarrow x_{rgb}$ 表示当前区域与其他区域的模态内相关性, 指示当前区域是目标还是背景; $x_{rgb} \rightarrow x_{ir}$ 表示当前模态与另一模态的相关性, $x_{rgb} \rightarrow z$ 表示与目标模板的相似度, $\alpha$ 为控制权重的超参数, 定义移除比 $\eta = \frac kn = 0.3$ , $k, n$ 分别表示需要删除的标记数量和区域总数量. 更大的 $t_{rgb}^i$ 表示该区域更重要, 而较小者将会被删除. 这就是区域移除模块的作用.