为什么我还是无法理解transformer?
- 发表时间:2025-06-24 22:35:16
- 来源:
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
推荐资讯
- 2025-06-27 21:40:16有一个乌克兰的朋友问我,中国人凭什么能享受和平,我该怎么说?
- 2025-06-27 21:00:16民航局紧急通知禁止携无 3C 标识及被召回的充电宝乘境内航班,无 3C 标识充电宝有哪些安全隐患?
- 2025-06-27 22:00:16Centos为什么突然没人用了?
- 2025-06-27 21:10:16如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
- 2025-06-27 21:40:16Mac 发展那么多年结果只能剪***吗?
- 2025-06-27 21:45:15作为一个腰细腿粗的女生什么感觉?
- 2025-06-27 20:45:15民航局紧急通知禁止携无 3C 标识及被召回的充电宝乘境内航班,无 3C 标识充电宝有哪些安全隐患?
- 2025-06-27 22:05:15为什么很多《红警》老玩家看不起《红警3》,且对于《红警3》存在大量误解?
- 2025-06-27 21:30:16扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉?
- 2025-06-27 21:10:16能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
推荐产品
-
nodejs 真的不擅长CPU密集型计算么,与c++或者 rust 差别有多大?
首先要明白 Node.js 不适合 CPU 密集型的本质,是 -
湖北襄阳一高中全班 45 人有 43 人超 600 分,这个班是怎么做到的?其成功经验是否可复制?
襄阳五中嘛。 中考先筛一轮,高一下学期期中考试后分班,按照 -
如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?
我感觉OpenAI,Anthropic对"通过LLM追求的A -
知乎上有哪些被顶到高票的反智答案?
那必然是“网传哈萨克斯坦发现哈密卫遗址”这个: 结果问题
最新资讯