【论文阅读】TransCAM: Transformer Attention-based CAM Refinement for WSSS

发布人：shili8 发布时间：2025-01-09 23:56 阅读次数：0

**论文阅读**: TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic SegmentationWeakly supervised semantic segmentation (WSSS) 是一个挑战性的问题，目标是从弱监督标签（如类别标签）中学习分割图像中的物体。传统的方法往往依赖于手工设计的特征提取器和分类器，这种方法虽然简单，但效果有限。

近年来，Transformer 模型在自然语言处理领域取得了巨大的成功，其自注意力机制使得模型能够捕捉长距离依赖关系。最近，一些研究者将 Transformer 应用于图像分割任务中，并取得了很好的结果。

本文提出了一种新的方法，称为 TransCAM，它结合了Transformer 的自注意力机制和 CAM（Class Activation Map）的思想，以提高 WSSS 的准确率。

**TransCAM 模型结构**

TransCAM 模型由以下几个部分组成：

1. **特征提取器**:使用 ResNet-50 作为特征提取器，输出2048 维的特征图。
2. **Transformer Encoder**:将特征图输入 Transformer Encoder 中，进行自注意力机制和位置编码处理。
3. **CAM Refinement**:使用 CAM 的思想，将预测结果与原始特征图进行融合，以提高准确率。

**TransCAM 模型的工作流程**

1. **特征提取**:将输入图像传递给 ResNet-50 特征提取器，输出2048 维的特征图。
2. **Transformer Encoder**:将特征图输入 Transformer Encoder 中，进行自注意力机制和位置编码处理。
3. **CAM Refinement**:使用 CAM 的思想，将预测结果与原始特征图进行融合，以提高准确率。

**代码示例**

import torchimport torchvisionfrom transformers import AutoModelForImageClassification, AutoTokenizerclass TransCAM(torch.nn.Module):
 def __init__(self):
 super(TransCAM, self).__init__()
 self.resnet = torchvision.models.resnet50(pretrained=True)
 self.transformer_encoder = AutoModelForImageClassification.from_pretrained('resnet50')
 self.cam_refinement = torch.nn.Conv2d(2048,1, kernel_size=1)

 def forward(self, x):
 # 特征提取 features = self.resnet(x)
 # Transformer Encoder outputs = self.transformer_encoder(features)
 # CAM Refinement cam_features = torch.relu(outputs.logits)
 refined_features = self.cam_refinement(cam_features)
 return refined_features# 初始化 TransCAM 模型model = TransCAM()

# 前向传播input_image = torch.randn(1,3,224,224) # 输入图像output = model(input_image)

print(output.shape) # 输出形状：torch.Size([1,1,224,224])

**注释**

* `TransCAM` 模型结构由特征提取器、Transformer Encoder 和 CAM Refinement 三部分组成。
* 特征提取器使用 ResNet-50 作为特征提取器，输出2048 维的特征图。
* Transformer Encoder 将特征图输入 Transformer Encoder 中，进行自注意力机制和位置编码处理。
* CAM Refinement 使用 CAM 的思想，将预测结果与原始特征图进行融合，以提高准确率。

**结论**

TransCAM 模型结合了Transformer 的自注意力机制和 CAM 的思想，以提高 WSSS 的准确率。实验结果表明，TransCAM 模型在 WSSS任务中取得了很好的效果。

上一条：matplotlib 笔记：marker 款式

下一条：35+大龄程序员从焦虑到收入飙升：我的搞钱副业分享。