0%

总访问量
总访客数

总访问量
总访客数

​ 记录一下自己学习langchain的过程。首先是模型安装和部署。

阅读全文 »

总访问量
总访客数

总访问量
总访客数

总访问量
总访客数

总访问量
总访客数

做一些整理记录性质的东西,不然太容易忘记了

阅读全文 »

总访问量
总访客数

总访问量
总访客数

训练显存消耗(可估算部分)主要包括:模型参数(Model)+ 优化器状态(Optimizer status)+梯度值(Gradient)+激活值(Activation)。根据数值的变化,可将显存消耗分为静态/动态值。训练过程中,模型参数、优化器状态一般不会变化,这两部分归属于静态值;激活值、梯度值会随着计算过程发生变化,将它们归类到动态值。

我们部署大模型的时候一般只会用到模型参数(Model)+ KV缓存(激活值),其中,当我们使用MOE架构的模型时,模型参数往往是整个模型的10%-15%左右。

阅读全文 »

总访问量
总访客数

总访问量
总访客数