图解Vit 3：Vision Transformer——ViT模型全流程拆解

发布人：shili8 发布时间：2025-01-08 21:46 阅读次数：0

**图解Vit3：Vision Transformer——ViT模型全流程拆解**

**前言**

在深度学习领域，传统的卷积神经网络（CNN）已经被广泛应用于图像分类、目标检测等任务。但是，随着Transformer模型的出现，它们带来了新的视觉表示方法——Vision Transformer（ViT）。本文将详细介绍ViT模型的全流程拆解，并提供部分代码示例和注释。

**1.什么是Vision Transformer（ViT）**

Vision Transformer（ViT）是一种基于Transformer结构的图像分类模型。它通过将图像分割成小块，然后使用自注意力机制（Self-Attention）来处理这些块，从而实现图像特征提取和分类。

**2. ViT模型架构**

下面是ViT模型的基本架构：

* **输入层**: 将图像转换为一维向量，作为输入。
* **分割层**: 将图像分割成小块（patch），每个块代表一个特征。
* **自注意力机制（Self-Attention）**: 对每个块进行自注意力计算，以捕捉其内部关系和特征。
* **全连接层**: 将自注意力输出经过全连接层，得到图像的特征向量。
* **分类层**: 使用softmax函数对特征向量进行分类。

**3. 分割层**

分割层是ViT模型中非常重要的一部分，它将图像分割成小块，每个块代表一个特征。下面是分割层的代码示例：

import torchimport torchvisionclass PatchEmbedding(torch.nn.Module):
 def __init__(self, img_size=224, patch_size=16, in_channels=3, embed_dim=768):
 super(PatchEmbedding, self).__init__()
 self.patch_size = patch_size self.proj = torch.nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size)
 self.norm = torch.nn.LayerNorm(embed_dim)

 def forward(self, x):
 B, C, H, W = x.shape x = self.proj(x) # (B, embed_dim, H/patch_size, W/patch_size)
 x = x.flatten(2).transpose(1,2) # (B, H/patch_size * W/patch_size, embed_dim)
 return self.norm(x)

# 初始化分割层patch_embedding = PatchEmbedding()

**4. 自注意力机制（Self-Attention）**

自注意力机制是ViT模型中另一个非常重要的部分，它对每个块进行自注意力计算，以捕捉其内部关系和特征。下面是自注意力机制的代码示例：

import torchimport torch.nn as nnclass SelfAttention(nn.Module):
 def __init__(self, embed_dim=768, num_heads=12):
 super(SelfAttention, self).__init__()
 self.num_heads = num_heads self.query_key_value = nn.Linear(embed_dim,3 * embed_dim)
 self.scale = torch.nn.Parameter(torch.ones(1))

 def forward(self, x):
 B, L, _ = x.shape query_key_value = self.query_key_value(x).reshape(B, L, self.num_heads,3 * self.embed_dim // self.num_heads).transpose(1,2)
 attention_weights = torch.matmul(query_key_value[:, :, :self.embed_dim], query_key_value[:, :, self.embed_dim:].transpose(-1, -2)) / self.scale return attention_weights# 初始化自注意力机制self_attention = SelfAttention()

**5. 全连接层**

全连接层是ViT模型中用于将自注意力输出经过全连接层，得到图像的特征向量。下面是全连接层的代码示例：

import torchimport torch.nn as nnclass FeedForwardNetwork(nn.Module):
 def __init__(self, embed_dim=768, hidden_dim=3072):
 super(FeedForwardNetwork, self).__init__()
 self.fc1 = nn.Linear(embed_dim, hidden_dim)
 self.relu = nn.ReLU()
 self.dropout = nn.Dropout(p=0.1)
 self.fc2 = nn.Linear(hidden_dim, embed_dim)

 def forward(self, x):
 x = self.fc1(x)
 x = self.relu(x)
 x = self.dropout(x)
 x = self.fc2(x)
 return x# 初始化全连接层feed_forward_network = FeedForwardNetwork()

**6. 分类层**

分类层是ViT模型中用于将特征向量进行分类的部分。下面是分类层的代码示例：

import torchimport torch.nn as nnclass ClassificationHead(nn.Module):
 def __init__(self, embed_dim=768, num_classes=1000):
 super(ClassificationHead, self).__init__()
 self.fc = nn.Linear(embed_dim, num_classes)

 def forward(self, x):
 return self.fc(x)

# 初始化分类层classification_head = ClassificationHead()

**7. 综合**

综合上述各部分，下面是完整的ViT模型代码示例：

import torchimport torchvisionclass PatchEmbedding(torch.nn.Module):
 def __init__(self, img_size=224, patch_size=16, in_channels=3, embed_dim=768):
 super(PatchEmbedding, self).__init__()
 self.patch_size = patch_size self.proj = torch.nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size)
 self.norm = torch.nn.LayerNorm(embed_dim)

 def forward(self, x):
 B, C, H, W = x.shape x = self.proj(x) # (B, embed_dim, H/patch_size, W/patch_size)
 x = x.flatten(2).transpose(1,2) # (B, H/patch_size * W/patch_size, embed_dim)
 return self.norm(x)

class SelfAttention(torch.nn.Module):
 def __init__(self, embed_dim=768, num_heads=12):
 super(SelfAttention, self).__init__()
 self.num_heads = num_heads self.query_key_value = torch.nn.Linear(embed_dim,3 * embed_dim)
 self.scale = torch.nn.Parameter(torch.ones(1))

 def forward(self, x):
 B, L, _ = x.shape query_key_value = self.query_key_value(x).reshape(B, L, self.num_heads,3 * self.embed_dim // self.num_heads).transpose(1,2)
 attention_weights = torch.matmul(query_key_value[:, :, :self.embed_dim], query_key_value[:, :, self.embed_dim:].transpose(-1, -2)) / self.scale return attention_weightsclass FeedForwardNetwork(torch.nn.Module):
 def __init__(self, embed_dim=768, hidden_dim=3072):
 super(FeedForwardNetwork, self).__init__()
 self.fc1 = torch.nn.Linear(embed_dim, hidden_dim)
 self.relu = torch.nn.ReLU()
 self.dropout = torch.nn.Dropout(p=0.1)
 self.fc2 = torch.nn.Linear(hidden_dim, embed_dim)

 def forward(self, x):
 x = self.fc1(x)
 x = self.relu(x)
 x = self.dropout(x)
 x = self.fc2(x)
 return xclass ClassificationHead(torch.nn.Module):
 def __init__(self, embed_dim=768, num_classes=1000):
 super(ClassificationHead, self).__init__()
 self.fc = torch.nn.Linear(embed_dim, num_classes)

 def forward(self, x):
 return self.fc(x)

# 初始化模型model = PatchEmbedding()
attention = SelfAttention()
feed_forward_network = FeedForwardNetwork()
classification_head = ClassificationHead()

# 前向传播x = torch.randn(1,3,224,224)
output = model(x)
output = attention(output)
output = feed_forward_network(output)
output = classification_head(output)

print(output.shape)

**8. 总结**

本文详细介绍了ViT模型的全流程拆解，并提供部分代码示例和注释。通过阅读本文，读者可以了解ViT模型的基本架构、分割层、自注意力机制、全连接层和分类层等各个部分的功能和实现方式。

上一条：【状态估计】基于FOMIAUKF、分数阶模块、模型估计、多新息系数的电池SOC估计研究（Matlab代码实现）

下一条：手把手教你写通讯录(含动态版)