Transformer的高下文学习能耐是哪来的?
有实际根基,高下咱们就能妨碍深度优化了。文学 为甚么 transformer 功能这么好?它给泛滥狂语言模子带来的高下高下文学习 (In-Context Learning) 能耐是从何而来 ?在家养智能规模里,transformer 已经成为深度学习中的文学主导模子,但人们对于它卓越功能的高下实际根基却不断钻研缺少。 最近,文学来自 Google AI 、高下苏黎世联邦理工学院、文学Google DeepMind 钻研职员的高下新钻研试验为咱们揭开谜底
。在新钻研中
,文学他们对于 transformer 妨碍了逆向工程,高下追寻到了一些优化措施
。文学论文《Uncovering mesa-optimization algorithms in Transformers》: 论文链接:https://arxiv.org/abs/2309.05858 作者证实 ,高下最小化通用自回归损失会发生在 Transformer 的文学前向传递中运行的基于辅助梯度的优化算法。这种天气最近被称为「mesa 优化(mesa-optimization)」。高下此外
,钻研职员发现所患上的 mesa 优化算法展现出高下文中的小样本学习能耐
,与模子规模无关。因此,新的服从对于此前狂语言模子中泛起的小样本学习的道理妨碍了填补。 钻研职员以为
:Transformers 的乐成基于其在前向传递中实现 mesa 优化算法的架构倾向 :(i) 界说外部学习目的,以及 (ii) 对于其妨碍优化