简介
论文来源: HATFNet: Hierarchical adaptive trident fusion network for RGBT tracking
现有的 RGBT 跟踪算法很少能够充分利用层次和多模态特征, 本文作者认为不同的卷积层的特征会有不同的贡献, 因而需要分开考虑. 在模态的融合上, 作者还设计了一种权重算法, 自动改变两个模态的权重.
方法
图1 HATFNet 结构图上图给出了 HATFNet 的具体结构.
在层次特征聚合模块(HFA)中, 考虑到不同层次对目标定位和识别的贡献不同, 对前两层进行最大池化和 1×1 卷积处理, 此处的作用主要是保持通道数和分辨率一致.
图2 HFA 结构图HFA 的具体结构如上图所示. 在 HATF 结构图中我们能看到 HFA 有三个输入, 对应上图中左侧的 3 个 XConv, 数字序号即 HATFNet 中的层数. 3 个输入先被简单相加后分别进入 GAP 和 GMP, 接着根据通道维度连接, 得到融合特征. 该融合特征经过 3 个不同的全连接层和 softmax 激活函数, 得到 3 组权重, 与前面的 3 个 Xconv 逐元素相乘, 最终结果相加到一起, 得到 HFA 的输出.
图3 MFF 结构图MFF 能够自适应计算两种模态的可靠性, 调整融合权重. 中间部分使用了垂直和水平方向的平均池化, 算法如下:
fch=W10≤i<W∑Xfusec(h,i)fcw=H10≤i<H∑Xfusec(j,w)
其中垂直部分经过维度转换变成水平后, 与水平部分按通道进行连接, 随后经过卷积, Batch Normalization 和 ReLU, 得到中间特征 f∈RC/r×(H+W). Split 操作将中间特征分为 fh∈RC/r×H 和 fw∈RC/r×W, 接着又经过一系列模块, 最终得到两个权重 wh,ww.
两个模态分别乘上对应的垂直和水平权重, 相加后得到的就是 MFF 输出.
最后, 我们得到两个模态的特征和一个融合特征, 最终输出如下所示:
Xall=Ffc6(Ffc5v(Ffc4v(Xv))+Ffc5f(Ffc4f(Xf))+Ffc5t(Ffc4t(Xt)))
其中 Ffc 表示全连接层, Xf,Xv,Xt 分别表示融合特征, 可见光特征, 热红外特征, Xall 表示候选框的最终得分.
在边界框的选取上, 作者使用了 Alpha-Refine 模块提升效率.
作者直接使用了Real-Time MDNet中定义的损失函数:
L=Lcls+α⋅Linst
其中 Lcls 是二元交叉熵损失, Linst 是实例嵌入损失, α 是可以调节的超参数, 被设置为 0.1.
经过实验, 作者发现自己设计的网络与 14 个 RGBT 跟踪器相比, 精度略有提高. 另外作者还和 12 个 RGB 跟踪器进行了对比, 结果显然是碾压, 尚不清楚比较意义.