0%

我对大模型框架改进的看法

东西不记就容易忘掉,总之先记录下现在看llama系列模型改进的想法

llama1的改动包括三个:ROPE,RMSnorm前置和SWIGLU。

ROPE我还真是不看不知道,我一直以为位置编码都是加算embedding,结果这个相对位置编码是在对QKV做操作,同样的,ROPE也是计算出来的,所以可以适应变长的输入。然后是RMSnorm,贴一下归一化的定义:

当两个值之间的差异较小时与较大时,评估值(例如 MSE,均方误差)可能会有很大差异。在 MSE 中,如果出现较大的值,梯度可能会变得极大,从而使学习变得不稳定

我看到的一个说法是前置归一化能节约计算资源,这是因为数据在输入前是更不均匀的。RMS就仅使用均方根(RMS),传统的LayerNorm 相比,后者需要一次数据扫描来计算均值,另一次来计算方差。RMSNorm 通过维持非零均值而不与 0 对齐均值,帮助解决梯度消失问题。在早期周期中比 LayerNorm 维持更高的梯度范数。另一个原因是节省内存,这个结合我看到的在模型使用不同精度的数据,我想应该还真的是有这部分的作用,是DSV3吗,我有点记不得了。

再然后就是使用了SWIGLU,这个方法就是保留了0以下的数值,捕捉的信息更多。

然后就是llama2了,我感觉这个模型基本没啥大变化,虽然说是用了GQA,但也就这一点了。事实上由于GQA本身的性质,虽然能加速训练,但也一定会导致信息丢失的。我怀疑它通过大量增加训练数据(+40%)就是为了补偿这中间的损失

不过llama2提出的训练数据质量决定SFT模型上限多重要的。另外和GPT相比,他明显投入的资源更多,在方方面面都有测评,肤色,宗教,性别这些。不过我说是投入更多,实际上我们看不到他对标的GPT3.5在安全上的努力有多少,毕竟是没有公布的东西。

参考资料
https://blog.csdn.net/star_nwe/article/details/145283201

-------------本文结束感谢您的阅读-------------

总访问量
总访客数