flash attention 2论文学习

发布人：shili8 发布时间：2025-03-01 08:23 阅读次数：0

**Flash Attention2: Efficient Self-Attention with Linear Complexities**

**Abstract**

自注意力（Self-Attention）是Transformer模型中一个关键组件，用于捕捉输入序列之间的依赖关系。然而，传统的自注意力计算具有平方时间复杂度（O(n^2），其中 n 是序列长度，这限制了其在长序列上的应用。Flash Attention2是一种新型的自注意力机制，旨在减少计算复杂度并提高效率。

**1. 背景**

自注意力是Transformer模型中一个关键组件，它通过计算输入序列之间的相似性来捕捉依赖关系。然而，传统的自注意力计算具有平方时间复杂度（O(n^2），其中 n 是序列长度。这限制了其在长序列上的应用。

**2. Flash Attention2**

Flash Attention2是一种新型的自注意力机制，它旨在减少计算复杂度并提高效率。它通过使用线性复杂度（O(n）的矩阵乘法来实现这一点。

**3. 模型架构**

Flash Attention2模型架构如下所示：

+---------------+
| Embedding |
+---------------+
 |
 |
 v+---------------+
| Positional |
| Encoding |
+---------------+
 |
 |
 v+---------------+
| Self-Attention|
| (Flash) |
+---------------+
 |
 |
 v+---------------+
| Feed Forward |
| Network |
+---------------+

**4. Flash Attention**

Flash Attention是Flash Attention2模型中的一个关键组件，它旨在减少计算复杂度并提高效率。它通过使用线性复杂度（O(n）的矩阵乘法来实现这一点。

**5. 计算流程**

Flash Attention的计算流程如下所示：

1. 首先，输入序列经过Embedding层转换为向量表示。
2. 然后，向量表示经过Positional Encoding层添加位置信息。
3. 接着，向量表示经过Self-Attention层计算相似性。
4. 最后，输出结果经过Feed Forward Network层进行非线性变换。

**6.代码示例**

以下是Flash Attention2模型的Python代码示例：

import torchimport torch.nn as nnclass FlashAttention(nn.Module):
 def __init__(self, num_heads, embed_dim):
 super(FlashAttention, self).__init__()
 self.num_heads = num_heads self.embed_dim = embed_dim self.query_key_value = nn.Linear(embed_dim,3 * embed_dim)
 self.scale = nn.Parameter(torch.ones(embed_dim))

 def forward(self, x):
 batch_size, seq_len, _ = x.size()
 query_key_value = self.query_key_value(x).view(batch_size, seq_len, self.num_heads,3 * self.embed_dim // self.num_heads)
 query, key, value = torch.split(query_key_value, self.embed_dim, dim=-1)

 attention_weights = (query @ key.transpose(-2, -1)) / math.sqrt(self.embed_dim)
 attention_weights = F.softmax(attention_weights, dim=-1)

 output = (attention_weights @ value).view(batch_size, seq_len, self.num_heads, self.embed_dim // self.num_heads)
 output = torch.cat([output[:, :, i] for i in range(self.num_heads)], dim=-1)

 return outputclass FlashAttention2(nn.Module):
 def __init__(self, num_heads, embed_dim):
 super(FlashAttention2, self).__init__()
 self.flash_attention = FlashAttention(num_heads, embed_dim)
 self.feed_forward_network = nn.Linear(embed_dim, embed_dim)

 def forward(self, x):
 output = self.flash_attention(x)
 output = torch.relu(self.feed_forward_network(output))
 return output

**7. 结论**

Flash Attention2是一种新型的自注意力机制，旨在减少计算复杂度并提高效率。它通过使用线性复杂度（O(n）的矩阵乘法来实现这一点。实验结果表明，Flash Attention2模型在长序列上的应用效果更好。

**注释**

* `math.sqrt(self.embed_dim)` 是用于计算注意力权重的缩放因子。
* `F.softmax(attention_weights, dim=-1)` 是用于计算注意力权重的softmax函数。
* `torch.relu(output)` 是用于激活输出结果的relu函数。

上一条：3dsmax制作一个小人

下一条：Linux学习之case