代码题：Multi-Head Attention 实现

Tue, 05 May 2026 00:00:00 +0000

问题描述

实现一个多头注意力机制，给定输入 query、key、value 和可选的 mask，计算输出和注意力权重。

具体需要完成以下几个步骤：

多头注意力是 Transformer 的核心模块，其核心思想是将输入投影到多个子空间，分别计算注意力，再拼接起来。关键点在于：