Attention

问题描述实现一个多头注意力机制，给定输入 query、key、value 和可选的 mask，计算输出和注意力权重。具体需要完成以下几个步骤：对 Q、K、V 进行线性变换拆分为多头并进行缩放点积注意力计算合并多头结果通过输出线性层映射回原维度解题思路多头注意力是 Transformer 的核心模块，其核心思想是将输入投影到多个子空间，分别计算注意力，再拼接起来。关键点在于： ...