代码题:Multi-Head Attention 实现
问题描述 实现一个多头注意力机制,给定输入 query、key、value 和可选的 mask,计算输出和注意力权重。 具体需要完成以下几个步骤: 对 Q、K、V 进行线性变换 拆分为多头并进行缩放点积注意力计算 合并多头结果 通过输出线性层映射回原维度 解题思路 多头注意力是 Transformer 的核心模块,其核心思想是将输入投影到多个子空间,分别计算注意力,再拼接起来。关键点在于: ...
问题描述 实现一个多头注意力机制,给定输入 query、key、value 和可选的 mask,计算输出和注意力权重。 具体需要完成以下几个步骤: 对 Q、K、V 进行线性变换 拆分为多头并进行缩放点积注意力计算 合并多头结果 通过输出线性层映射回原维度 解题思路 多头注意力是 Transformer 的核心模块,其核心思想是将输入投影到多个子空间,分别计算注意力,再拼接起来。关键点在于: ...