视频中 10:33 处,解释了 Qn Kn 代表矩阵的第 n 列。
10:43,介绍了 Ki 和 Qj 点积的计算结果应该是 Attention 矩阵的第 i 行 j 列。然而 Attention 的公式是 QK',QK'无法得到这样的计算结果!相反,能够获得视频中所示的 Attention 矩阵的应该是 K'Q 。那么,视频中的公式是不是写错了?还是 Attention 矩阵错了?
下面是说明这个问题的 MATLAB 代码,请在 MATLAB 的实时脚本中执行此代码,以达到最佳的显示效果。
clear
syms Q K q k;
Q=sym('q',[3 3]);
K=sym('k',[3 3]);
Q
K
Q*K'
K'*Q
谁知道为什么这里的 markdown 编辑为什么不支持 latex 行间公式?