『大模型笔记』FlashAttention: 具有IO意识的快速且内存高效的精确注意力机制!
Flash Attention的工作,即快速且内存高效的具有IO感知的精确注意力机制! |
文章目录
- 一. 引言
- 1. Flash Attention要点
- 2. 动机:对更长的序列进行建模
- 二. FlashAttention: 具有IO意识的快速且内存高效的精确注意力机制
- 1. Background: Attention is the Heart of Transformers
- 1.1 Transformer Attention
- 1.2 GPU背景知识
- 2. FlashAttention
- 2.1 两大挑战以及解决办法<