抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

简介

论文来源: HATFNet: Hierarchical adaptive trident fusion network for RGBT tracking

现有的 RGBT 跟踪算法很少能够充分利用层次和多模态特征, 本文作者认为不同的卷积层的特征会有不同的贡献, 因而需要分开考虑. 在模态的融合上, 作者还设计了一种权重算法, 自动改变两个模态的权重.

方法

HATFNet 网络结构图

图1 HATFNet 结构图

上图给出了 HATFNet 的具体结构.

在层次特征聚合模块(HFA)中, 考虑到不同层次对目标定位和识别的贡献不同, 对前两层进行最大池化和 1×11 \times 1 卷积处理, 此处的作用主要是保持通道数和分辨率一致.

HFA 结构图

图2 HFA 结构图

HFA 的具体结构如上图所示. 在 HATF 结构图中我们能看到 HFA 有三个输入, 对应上图中左侧的 3 个 XConvX_{Conv}, 数字序号即 HATFNet 中的层数. 3 个输入先被简单相加后分别进入 GAPGAPGMPGMP, 接着根据通道维度连接, 得到融合特征. 该融合特征经过 3 个不同的全连接层和 softmaxsoftmax 激活函数, 得到 3 组权重, 与前面的 3 个 XconvX_{conv} 逐元素相乘, 最终结果相加到一起, 得到 HFA 的输出.

MFF 结构图

图3 MFF 结构图

MFF 能够自适应计算两种模态的可靠性, 调整融合权重. 中间部分使用了垂直和水平方向的平均池化, 算法如下:

fch=1W0i<WXfusec(h,i)fcw=1H0i<HXfusec(j,w)\begin{array}{ll} f_c^h = \frac 1W \sum\limits_{0 \le i < W} X_{fuse}^c(h, i) \\\\ f_c^w = \frac 1H \sum\limits_{0 \le i < H} X_{fuse}^c(j, w) \end{array}

其中垂直部分经过维度转换变成水平后, 与水平部分按通道进行连接, 随后经过卷积, Batch Normalization 和 ReLU, 得到中间特征 fRC/r×(H+W)f \in \mathbb{R}^{C/r \times (H + W)}. Split 操作将中间特征分为 fhRC/r×Hf^h \in \mathbb{R}^{C/r \times H}fwRC/r×Wf^w \in \mathbb{R}^{C/r \times W}, 接着又经过一系列模块, 最终得到两个权重 wh,www^h, w^w.

两个模态分别乘上对应的垂直和水平权重, 相加后得到的就是 MFF 输出.

最后, 我们得到两个模态的特征和一个融合特征, 最终输出如下所示:

Xall=Ffc6(Ffc5v(Ffc4v(Xv))+Ffc5f(Ffc4f(Xf))+Ffc5t(Ffc4t(Xt)))X_{all} = \mathcal{F}_{fc}^6 \left( \mathcal{F}_{fc}^{5v} \left( \mathcal{F}_{fc}^{4v} \left( X_v \right) \right) + \mathcal{F}_{fc}^{5f} \left( \mathcal{F}_{fc}^{4f} \left( X_f \right) \right) + \mathcal{F}_{fc}^{5t} \left( \mathcal{F}_{fc}^{4t} \left( X_t \right) \right) \right)

其中 Ffc\mathcal{F}_{fc} 表示全连接层, Xf,Xv,XtX_f, X_v, X_t 分别表示融合特征, 可见光特征, 热红外特征, XallX_{all} 表示候选框的最终得分.

在边界框的选取上, 作者使用了 Alpha-Refine 模块提升效率.

作者直接使用了Real-Time MDNet中定义的损失函数:

L=Lcls+αLinst\mathcal{L} = \mathcal{L}_{cls} + \alpha \cdot \mathcal{L}_{inst}

其中 Lcls\mathcal{L}_{cls} 是二元交叉熵损失, Linst\mathcal{L}_{inst} 是实例嵌入损失, α\alpha 是可以调节的超参数, 被设置为 0.10.1.

经过实验, 作者发现自己设计的网络与 14 个 RGBT 跟踪器相比, 精度略有提高. 另外作者还和 12 个 RGB 跟踪器进行了对比, 结果显然是碾压, 尚不清楚比较意义.

评论