|
|
|
发布时间: 2025-12-25 |
其他研究 |
|
|
|
收稿日期: 2024-12-29
中图法分类号: TP391.41
文献标识码: A
文章编号: 2096-8299(2025)06-0597-08
|
摘要
相比于传统的有监督和无监督学习方法,单样本行人重识别因其实用性而成为研究热点。尽管近年来该领域取得了显著进展,但算法性能仍面临标签噪声干扰和伪标签置信度不足等挑战。因此,提出了一种标签置信度排序引导多边学习的算法。首先,采用了一种基于层次聚类模块的策略,对未标记图像实例进行有效分类并降低噪声干扰。然后,引入了多边学习框架,根据标签置信度排序,在多个网络分支上进行差异化训练。最后,通过在公共基准数据集Market-1501、DukeMTMC-reID和CUHK03上进行广泛实验,验证得出了所提算法在mAP和Rank-k上都有较好的表现,性能优于大多数现有算法,具有一定鲁棒性。
关键词
标签; 置信度; 多边学习; 单样本; 行人重识别
Abstract
Compared to traditional supervised and and unsupervised learning methods, one-shot person re-identification has emerged as a research focus due to its practical applicability. Despite significant advancements in this field in recent years, the performance of existing methods is still limited by several challenges such as label noise interference and restricted pseudo-label confidence. This paper proposes a label confidence ranking guided multilateral learning algorithm to overcome them. Firstly, a label confidence ranking strategy based on the hierarchical clustering module is proposed to classify unlabeled image instances and exclude noises. Secondly, a multilateral learning framework is introduced by leveraging the label confidence ranking to conduct training in multiple network branches. Finally, through extensive experiments on three public benchmark datasets, Market-1501, DukeMTMC-reID and CUHK03, it is verified that the proposed method can outperform most present algorithms with good performance on both mAP and Rank-k with robustness.
Key words
label; confidence ranking; multilateral learning; one-shot; person re-identification
行人重识别能够辨识跨不同监控摄像头捕获的同一目标个体,在目标检索领域扮演着关键角色。尽管有些监督行人重识别方法已经取得了显著的进展,但其训练过程所需的数据标注工作成本昂贵。例如,文献[1]提高了模型在多数据集并行训练条件下的泛化能力;文献[2]提出了一种位置感知注意力模块,提升了行人重识别模型的准确性;文献[3]提出了一种姿态引导的特征增强模型。然而,这些方法缺少标签信息的指导,普遍未能达到与有监督方法相媲美的性能。在此背景下,单样本行人重识别因其仅需单个标记实例即可实现个体识别而展现出巨大潜力,不过仍面临着若干挑战。
首先,模型性能易受到标签噪声的负面影响。这些噪声可能源自不当的特征表达、错误的标签或具有局限性的聚类算法。例如,文献[4]通过单个密集连接卷积网络(DenseNet)生成基础学习器来缓解过拟合问题;文献[5]构建了自步不确定性估计网络,以捕捉图像各部分间的局部关系;文献[6]利用双重度量模块和关系模块计算样本相似度,从而获取无标签样本的类别。这些研究或集中于提升特征表示,或侧重于通过距离度量生成伪标签,但两者均可能引入训练过程中的标签噪声。
其次,不同置信度的伪标签样本在训练中往往被一视同仁,忽视了标签错误的可能性,从而限制了模型性能的进一步提升。例如,文献[7-8]都采用了最近邻(Nearest Neighboring,NN)方法进行伪标签的分配,导致伪标签与真实标签样本在训练中被同等对待;文献[9]利用多分支网络分别训练标签样本、无标签样本和伪标签样本,但对它们都进行了相同的分类和部件分割任务;文献[10] 采用了混合聚类策略来分配标签,以减少噪声的影响,但在模型训练过程中,未能有效区分标签样本和伪标签样本,导致在模型训练过程中被错误的标签样本误导。
因此,本文提出了一种标签置信度排序引导的多边学习算法。通过采用基于标签置信度的图像样本分类策略,对实例进行智能排序,并构建多边学习框架,将不同置信度级别的图像实例分别送入各个分支网络。借助标签置信度排序,实现在多个网络分支上的差异化训练,从而有针对性地优化训练结果。该算法旨在提升单样本行人重识别方法的鲁棒性和准确性,同时克服现有方法在处理标签噪声和伪标签置信度方面的局限性。
1 标签置信度排序引导的多边学习算法
1.1 整体框架
本文提出的单样本行人重识别框架如图 1所示。其中:Net1、Net2表示交互式均值教学(Mutual Mean Teaching,MMT)框架[11]中的两个子网络;Mean Net1、Mean Net2分别为Net1和Net2的时间平均网络。
首先,输入一组图像,通过特征提取模块中的主干网络提取特征。然后,利用学习得到的权重对K-质心近邻(K-Centroid Nearest Neighboring,K-CNN)算法中的质心进行精细调整。接着,图像实例进入分层聚类模块进行伪标签的分配和标签置信度的排序。这一模块将图像实例按照标签赋值方式分为有标签分支损失(
1.2 标签置信度排序策略
本文引入分层聚类模块,实现图像的伪标签分配和标签置信度评定。分层聚类模块由KCNN和DBSCAN构成。令
| $\begin{equation*} c_{i}=\beta F\left(x_{i}^{1}\right)+(1-\beta) \frac{1}{K} \sum\limits_{k} F\left(x_{i k}\right) \end{equation*} $ | (1) |
式中:
K值将按以下规则在每个训练轮次(epoch)中逐步更新,公式如下:
| $ K= \begin{cases}{\left[0.1 \times\left(e_{\mathrm{poch}}+1\right)+|U|\right], } & e_{\mathrm{poch}} <10 \gamma-1 \\ {[\gamma|U|], } & e_{\mathrm{poch}} \geqslant 10 \gamma-1\end{cases} $ | (2) |
式中:[·]——积分函数;
由式(2)可以看出,在
K-CNN处理完成后,将对所有样本进行DBSCAN聚类。在完成K-CNN和DBSCAN聚类后,假设有l个离群点被当作噪声处理,则有(M−K−l)个样本是根据DBSCAN聚类的结果分配的伪标签。由此,所有参与训练的样本被分为4类:有标签数据、K-CNN伪标签赋值数据、DBSCAN伪标签赋值数据和噪声,它们的标签置信度递减。为了表示方便,将两种聚类后被分配伪标签的(M − l)个数据统一表示为
1.3 多边学习框架
利用标签置信度区分不同类别的样本,并分别将它们输入各个分支进行学习。在得到标签置信度排序后,采用三分支架构对其进行多边训练。3个分支分别处理标签样本、K-CNN伪标签样本和DBSCAN伪标签样本。所有分支都使用MMT网络进行身份识别,但它们的训练损失不同。总损失L是所有分支损失的总和,公式如下:
| $ \begin{equation*} L=\frac{1}{\lambda_{1}} L_{\text {labeled }}+\frac{\alpha}{\lambda_{2}} L_{\mathrm{N} \_ \text {labeled }}+(1-\alpha) L_{\mathrm{D} \_ \text {labeled }} \end{equation*} $ | (3) |
式中:
α——K-CNN和DBSCAN伪标签数据参与训练的程度。
MMT网络利用聚类生成的伪标签和在线优化形成的“软”伪标签进行联合训练,从而减轻伪标签中的噪声。其包含两个相似的子网Net1和Net2,每个子网都具有相同结构的特征提取主干,但采用不同的初始化参数,并随即产生不同干扰。分别对Net1和Net2的参数计算时间累计平均值,建立Mean Net1和Mean Net2。Mean Net1和Mean Net2的参数
| $\left\{\begin{array}{l} \overline{\theta_{1}}=E^{\mathrm{T}}\left(\theta_{1}\right) \\ \overline{\theta_{2}}=E^{\mathrm{T}}\left(\theta_{2}\right) \end{array}\right. $ | (4) |
式中:
Mean Net1和Mean Net2通过相互监督生成更准确的特征和识别预测,这些预测和特征结果在训练过程中作为“软”伪标签使用。Net1和Net2输出交叉熵损失
| $ \begin{align*} L_{\text {labeled }}= & \lambda_{1}\left(L_{\text {cross-ety }}+L_{\text {soft-cft }}+L_{\mathrm{tH}}+L_{\text {soft-tH }}\right)+ \\ & \left(1-\lambda_{1}\right) L_{\mathrm{b-dist}} \end{align*} $ | (5) |
在训练K-CNN聚类分配伪标签样本分支网络时,其分支训练损失
| $ \begin{align*} L_{\mathrm{N}-\text { labeled }}= & \lambda_{2}\left(L_{\text {cross-ety }}+L_{\text {soft-cft }}+L_{\mathrm{tH}}+L_{\text {soft-tH }}\right)+ \\ & \left(1-\lambda_{2}\right) L_{\mathrm{g}-\text { center }} \end{align*} $ | (6) |
| $ \begin{equation*} L_{\mathrm{D}-\text { labeled }}=L_{\mathrm{tH}}+L_{\mathrm{soft}-\mathrm{tH}} \end{equation*} $ | (7) |
1.4 批距离损失
批距离损失专门针对每一类别的唯一有标签样本设计,通过依靠样本的差异性使训练得到的识别模型更具判别力,因此考虑了批处理中不同类别之间所有样本的间隔距离。批距离损失
| $ \begin{align*} L_{\mathrm{b}-\mathrm{dist}}= & {\left[\frac{1}{N_{\mathrm{B}}} \sum\limits_{x_{i}^{1} \neq x_{n}^{1}}\left\|F\left(x_{i}^{1} \mid \theta_{1}\right)-F\left(x_{n}^{1} \mid \theta_{1}\right)\right\|_{2}\right]^{-1}+} \\ & {\left[\frac{1}{N_{\mathrm{B}}} \sum\limits_{x_{i}^{1} \neq x_{n}^{1}}\left\|F\left(x_{i}^{1} \mid \theta_{2}\right)-F\left(x_{n}^{1} \mid \theta_{2}\right)\right\|_{2}\right]^{-1} } \end{align*} $ | (8) |
式中:NB——批处理中的实例数;
n——图像标签,与i取值范围相同,n≠i;
1.5 全局中心损失
传统中心损失[12]使用的是每个批次(batch)的局部中心,不适合行人重识别的应用,因此本文提出了一种全局中心损失函数。全局类中心根据每个类的标签图像特征进行初始化,将MMT中Mean Net1和Mean Net2提取的特征融合计算得到图像的全局中心特征,公式如下:
| $\begin{equation*} \boldsymbol{C}_{i}=\frac{1}{2}\left\{F\left[x_{i}^{\mathrm{l}} \mid E^{\mathrm{T}}\left(\theta_{1}\right)\right]+F\left[x_{i}^{\mathrm{l}} \mid E^{\mathrm{T}}\left(\theta_{2}\right)\right]\right\} \end{equation*} $ | (9) |
式中:
受基于图的正预测(Graph-based Positive Prediction,GPP)[13]的启发,采用内存模块将Ci存储在标签i对应的位置。在第1个轮次初始化后,每次迭代都会进行更新。
从第2个轮次开始,全局中心损失LGC将被用于训练,其定义为
| $ \begin{equation*} L_{\mathrm{GC}}=\frac{1}{N_{\mathrm{B}}} \sum\limits_{i=1}^{N_{\mathrm{B}}}\left\|\frac{1}{2}\left[F\left(x_{i}^{\mathrm{w}} \mid \theta_{1}\right)+F\left(x_{i}^{\mathrm{w}} \mid \theta_{2}\right)\right]-\boldsymbol{C}_{i}\right\|_{2} \end{equation*} $ | (10) |
式中:
2 实验结果及分析
2.1 实验环境及参数配置
本文以影像网(imageNet)预训练的ResNet-50作为骨干网,在Market-1501[14]、DukeMTMCreID[15]和CUHK03[16]这3个数据集上进行训练,并利用迁移学习进一步提高训练效果。由于DukeMTMC-reID包含的图像最多,因此在Market-1501和CUHK03上训练时,将DukeMTMC-reID作为源域。在DukeMTMCreID上训练时,将Market-1501作为源域。训练图像和测试图像都被调整为256´128像素大小。在训练过程中,利用Adam优化器(自适应矩估计优化器,AdaptiveMoment Estimation Optimizer)进行参数优化。设置权重衰减系数为0.000 5,丢弃值(dropout)为0.5,每个批次大小为16,学习率为0.000 35。
2.2 算法比较
本文所提算法和其他算法的比较结果如表 1所示。其中,mAP、Rank-1(R1),Rank-5(R5)和Rank-10(R10)分别表示全类平均准确率、首位命中率、前5位命中率和前10位命中率。文献[6]仅对数据集中的部分数据进行了计算,因此用“*”表示样本差异性。
表 1
本文的方法和其他算法的比较结果
| 方法类别 | 算法 | Market-1501 | DukeMTMC-reID | CUHK03 | ||||||||||||
| mAP | R1 | R5 | R10 | mAP | R1 | R5 | R10 | mAP | R1 | R5 | R10 | |||||
| 有监督行人重识别方法 | 多注意力网络[17] | 89.47 | 96.11 | 98.57 | 99.14 | 80.25 | 90.31 | 95.87 | 96.81 | 73.61 | 76.71 | 89.71 | 94.14 | |||
| 单样本行人重识别方法 | 动态采样网络[7] | 26.20 | 55.80 | 72.30 | 78.40 | 28.50 | 48.80 | 63.40 | 68.40 | — | — | — | — | |||
| 自学习网络[8] | 28.50 | 59.30 | 70.30 | 75.20 | 29.60 | 49.20 | 83.80 | 87.40 | — | — | — | — | ||||
| 无监督身份关联[5] | 30.50 | 60.40 | 76.00 | 81.10 | 27.60 | 46.30 | 61.00 | 67.50 | — | — | — | — | ||||
| 特征归一化法[18] | 36.70 | 67.90 | 81.10 | 85.80 | 36.10 | 58.90 | 71.00 | 76.80 | — | — | — | — | ||||
| 身份数据增强[19] | 48.20 | 76.90 | 89.30 | 92.50 | 40.80 | 65.00 | 76.20 | 79.80 | 13.70 | 14.60 | 23.60 | 30.70 | ||||
| 域自适应注意力法[20] | 59.40 | 84.40 | 92.90 | 95.30 | 47.60 | 69.00 | 79.70 | 83.60 | — | — | — | — | ||||
| 阶梯伪标签法[10] | 74.20 | 89.60 | 95.90 | 97.40 | 58.40 | 74.70 | 84.50 | 87.70 | 74.80 | 79.90 | 88.10 | 92.10 | ||||
| 阶梯分支学习[21] | 78.80 | 90.40 | 96.10 | 97.30 | 69.00 | 77.20 | 86.50 | 89.20 | — | — | — | — | ||||
| 文献[6] | — | 90.40* | — | — | — | 86.77* | — | — | — | 71.08* | — | — | ||||
| 本文 | 80.60 | 90.50 | 96.10 | 97.40 | 71.00 | 78.50 | 87.50 | 89.60 | 75.40 | 79.50 | 87.20 | 92.10 | ||||
由表 1可以看出,除CUHK03数据集的Rank-1和Rank-5指标外,本文提出的标签置信度排名引导的多边学习算法在其他所有指标上都优于单样本行人重识别方法,表明该算法是有效的。该算法在伪标注过程中自适应更新聚类中心,避免了标注数据的偏差。此外,多注意力网络[17]代表了有监督行人重识别方法的最优水平,而本文所提算法的性能结果与其相当接近,也证明了该算法的优越性。
2.3 消融实验结果
实验的基础模型采用文献[7]提供的MMT模型。在此基础上,本文添加了不带聚类中心微调的标签置信度排序策略(Label Confidence Ranking Strategy,LCRS),记为LCRS(无中心微调);加入聚类中心微调的LCRS,记为LCRS;批距离损失,记为BD Loss;全局中心损失,记为GC Loss。
Market-1501、DukeMTMC-reID和CUHK03这3个数据集的消融实验结果如图 2所示。其中,Rank-20表示前20位命中率,k在Rank-k指标中取值为1、5、10、20。
由图 2可以看出,在基础模型上加入不带聚类中心微调的LCRS后,3个数据集的mAP都有明显的提高,Market-1501的mAP从70.90% 提高到72.30%,DukeMTMC-reID的mAP从57.50% 提高到58.10%,CUHK03的mAP从65.80% 提高到69.60%。这是因为伪标注和伪训练同时考虑了距离和分布关系,在基础模型上加入聚类中心微调的LCRS后,3个数据集的mAP和Rank-1值又得到了进一步提升,说明伪标签偏差被有效抑制。进一步添加批距离损失后,3个数据集的mAP和所有精度等级指标Rank-k都持续得到了改进。“Baseline+LCRS+BD Loss”在3个数据集上的mAP值分别达到73.90%、60.70% 和70.10%。虽然在Market-1501和DukeMTMC-reID的Rank-1指标上,对基础模型3次改进的结果不是很大,但其有效缩短了训练周期,3次改进后达到相同精度时3个数据集所需轮次数分别为23(−1),31(−3),50(−3)。其中,−1、−3表示比之前的方法所需轮次数分别减少了1和3。最后,在此基础上,模型采用全局中心损失补偿特征与中心之间的距离后,3个数据集的训练轮次数大大减少,分别为19(−4)、27(−4)和40(−10)。其中,−4、−10表示比之前的方法所需轮次数分别减少了4和10。mAP和Rank-k(k=1,5,10,20)也都有很好的表现。
2.4 参数讨论
2.5 可视化分析
3 结语
在半监督行人重识别领域,单样本行人重识别问题因存在标签噪声以及非精细化训练手段,尚未得到深入探究。鉴于此,本文提出了一种创新的多边学习框架,由标签置信度排序引导,旨在实现生成伪标签后进行高效的特征学习。在3个权威数据集上的实验结果表明,本文所提算法在性能上超越了大多数现有算法。同时,该算法的时间复杂度较低,在实际应用中具有高效性。本文的研究发现不仅为单样本行人重识别领域提供了新的解决方案,也为半监督学习领域提供了可借鉴的思路。
参考文献
-
[1]张誉馨, 张索非, 王文龙, 等. 面向行人重识别的多域批归一化问题研究[J]. 计算机技术与发展, 2022, 32(1): 91-97.
-
[2]陈江萍, 张索非, 宋越, 等. 位置感知注意力及其在行人重识别中的应用[J]. 计算机技术与发展, 2023, 33(1): 150-156.
-
[3]刘志刚, 王淼, 刘苗苗. 基于姿态引导特征增强的遮挡行人重识别[J]. 计算机技术与发展, 2024, 34(4): 89-94.
-
[4]SERBETCI A, AKGUL Y S. End-to-end training of CNN ensembles for person re-identification[J]. Pattern Recognition, 2020, 104: 107319. DOI:10.1016/j.patcog.2020.107319
-
[5]ZHANG Y L, MA B, LI M, et al. Pseudo-label estimation via unsupervised identity link prediction for one-shot person re-identification[J]. Pattern Recognition, 2024, 146: 110060. DOI:10.1016/j.patcog.2023.110060
-
[6]陈贵震, 邹国锋, 刘月, 等. 基于多尺度混合注意力与度量融合的小样本行人重识别[J]. 控制与决策, 2024, 39(5): 1441-1449.
-
[7]WU Y, LIN Y T, DONG X Y, et al. Progressive learning for person re-identification with one example[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2872-2881. DOI:10.1109/TIP.2019.2891895
-
[8]XIA D X, LIU H J, XU L L, et al. Self-training with oneshot stepwise learning method for person re-identification[J]. Concurrency and Computation: Practice and Experience, 2021, 33(17): e6296. DOI:10.1002/cpe.6296
-
[9]蔡欢欢, 王超, 李晓伟. 一种基于单样本的半监督行人重识别方法研究[J]. 信息记录材料, 2022, 23(9): 174-176.
-
[10]SHAO J, MA X Y. Hierarchical pseudo-label learning for one-shot person re-identification[J]. Applied Intelligence, 2022, 52(8): 9225-9238. DOI:10.1007/s10489-021-02959-2
-
[11]GE Y X, CHEN D P, LI H S. Mutual mean-teaching: pseudo label refinery for unsupervised domain adaptation on person re-identification[C]//Proceedings of the 8th International Conference on Learning Representations. Addis Ababa: OpenReview. net, 2020: 186995.
-
[12]WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515.
-
[13]ZHONG Z, ZHENG L, LUO Z M, et al. Learning to adapt invariance in memory for person re-identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(8): 2723-2738.
-
[14]ZHENG L, SHEN L Y, TIAN L, et al. Scalable person reidentification: a benchmark[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1116-1124.
-
[15]LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 152-159.
-
[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//Proceedings of the European Conference on Computer Vision. Amsterdam: Springer, 2016: 17-35.
-
[17]SUN J, LI Y F, CHEN H J, et al. MEMF: multi-levelattention embedding and multi-layer-feature fusion model for person re-identification[J]. Pattern Recognition, 2021, 116: 107937. DOI:10.1016/j.patcog.2021.107937
-
[18]XU T, LI J L, WU H, et al. Feature space regularization for person re-identification with one sample[C]//Proceedings of 2019 IEEE 31st International Conference on Tools with Artificial Intelligence. Portland: IEEE, 2019: 1463-1470.
-
[19]SI R X, YANG S W, ZHAO J, et al. Identity-based data augmentation via progressive sampling for one-shot person re-identification[C]//Proceedings of the 28th International Conference on Neural Information Processing. Bali, Indonesia: Springer, 2021: 113-124.
-
[20]SONG X L, JIN Z. Domain adaptive attention-based dropout for one-shot person re-identification[J]. International Journal of Machine Learning and Cybernetics, 2022, 13(1): 255-268. DOI:10.1007/s13042-021-01399-1
-
[21]SHAO J, MA X Y. Hierarchical pseudo labeling based embranchment learning for one-shot person re-identification[J]. IEEE Signal Processing Letters, 2022, 29: 434-438. DOI:10.1109/LSP.2021.3139571




