虽然我以前就知道大模型的输入计算很坑,但还是没想到这么坑
总访问量次 |
总访客数人 |
大模型的演变趋势
本文字数: 336 阅读时长 ≈ 1 分钟
我认为大模型的趋势有俩,轻量化和多模态化。
总访问量次 |
总访客数人 |
llama4看到的一些东西
本文字数: 333 阅读时长 ≈ 1 分钟
带着有色眼镜果然容易看错一些东西,我对于llama就有不少误解。特此记录,警醒自己。
总访问量次 |
总访客数人 |
我对大模型框架改进的看法
本文字数: 828 阅读时长 ≈ 1 分钟
东西不记就容易忘掉,总之先记录下现在看llama系列模型改进的想法
总访问量次 |
总访客数人 |
模型的参数计算方法
本文字数: 443 阅读时长 ≈ 1 分钟
整理一下学习到的模型的思路
总访问量次 |
总访客数人 |
qwen3模型的效果记录
本文字数: 410 阅读时长 ≈ 1 分钟
虽然说是效果记录,但是我毕竟没有设备。只能拾人牙慧,权当记录一个笔记。
总访问量次 |
总访客数人 |
关于智能体的体验
本文字数: 330 阅读时长 ≈ 1 分钟
2025年是智能体的元年,这一观点常被各大厂商提及。我查找了以往他们对于智能体的一些观点。看来也确实如此。
比较有说服力的是OPENAI的创始人萨鲁曼的说法,在之前的纽约时报里,我看到对于大模型的财报并不理想。其实这方面我认为DS也是有影响的,他们推出的开源低成本大模型极大地促进了市场对于大模型的开发热情,另一方OPENAI必须为此降低成本以吸引用户。他们API和付费订阅就因此没那么容易赚钱了。必须寻找一个突破口—–也就是智能体。
可以看到他们对于这个智能体是很有信心的,他们甚至敢说赚1750亿。没有比这个更直观的了,另一方面是智能体的进展。编程智能体是最多的,然后是检索引擎智能体。不得不说,编程类智能体感觉会导致就业进一步严峻。我必须跟进学习这部分才行。
总访问量次 |
总访客数人 |
关于智能体的看法
本文字数: 29 阅读时长 ≈ 1 分钟
感觉所谓的智能体,实际上是以往工作的整合。不过也确实很擅长
总访问量次 |
总访客数人 |
moe使用学习中
本文字数: 739 阅读时长 ≈ 1 分钟
在这里更新下我对混合专家(mixture-of-experts, MoE)的理解:MOE是一种通过对Transformer的FNN处进行简化的方法。首先将FNN层分成N个专家,每次只激活需要的那个专家模型,这样推理的时候就能减少计算量到原来的1/N。然后通过均衡训练的方法保证训练阶段每个专家模型都能充分训练。
总访问量次 |
总访客数人 |
如何让新创建的用户使用当前的conda
本文字数: 376 阅读时长 ≈ 1 分钟
首先创建新用户到你的路径。然后设置密码
sudo useradd <用户名> -m -d <你的路径> -s /bin/bash
chown <用户名>:<用户名> -R <你的路径>
passwd username
然后复制.bashrc到自己的目录去,.bashrc可以在自己的目录里面找。激活前记得先cd到自己的新目录
sudo cp .bashrc /home/newuser/.bashrc
source ~/.bashrc
这里用你的旧用户的路径替换</root/conda>
chmod 755 </root/conda>
总访问量次 |
总访客数人 |