下面给你一段最小可读的 PyTorch 风格实现,直观展示 N(序列长度)与 d = head_dim × num_heads 在张量维