为什么我还是无法理解transformer?
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
相关推荐
最新更新
推荐阅读
为什么好多人开空调抠抠搜搜的?
桂林旅游公布年报,自 2020 年以来已累计亏损 10 亿,亏损原因有哪些?大家不爱去桂林旅游了吗?
张元英的颜值在内娱属于什么水平?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
大家有没有「大众认为是烂片但个人却喜欢看」的影片?
周鸿祎为什么说他这辈子最鄙视李彦宏?
为什么手机动辄都 1T 存储了,为啥电脑还在死磕 512G 呢?
什么时候你发现和农村父母渐行渐远?
新修订的治安管理处罚法重构「被殴打还手即互殴」的认定标准,明确正当防卫免处罚,怎样从法律角度解读?
如何看待现在大多数男人都不谈恋爱了?
猜你喜欢
关注我们

包装制品配附件
网站首页
