为什么我还是无法理解transformer?
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
相关推荐
最新更新
推荐阅读
猜你喜欢
《西西里美丽传说》女主角,在当时打扮这么高调,不觉得带给自己很多不便吗?如何理解她的心态?
为什么央视不再报道洛杉矶***了?
大家猜猜伊朗的结局如何?
能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
如何看待《剑星》已登顶 Steam 全球热销榜?
中国外交部及有关使领馆正迅速组织撤离在以、伊的中国公民,目前当地情况如何?
如果 J***a 有 goroutine ,你們還會用 golang 嗎 ?
golang总体上有什么缺陷?
2025年,歼16与美军机50分钟缠斗,为什么知乎上没有任何消息?
特朗普集团推出 499 美元「土豪金」手机 T1,安卓系统,号称「美国制造」,如何看待此举?
关注我们

包装生产线
网站首页
