qwen3模型的效果记录

虽然说是效果记录，但是我毕竟没有设备。只能拾人牙慧，权当记录一个笔记。

一直以来我对大模型的效果评估都抱有疑问：要如何去测试，尤其是在数据有限的情况下测试。模型在哪方面的性能好由什么决定？

视频开头也说明由于大模型对于硬件要求高，本地硬件配置很麻烦导致本地部署很鸡肋。但是千问3居然能用4B打千问2.5的72B。并且和DSV3也是能比的，这个就很有用了。

然后看了下他的视频，对比是比较同一个问题在多个模型的输出结果的。嗯，这个其实就和我之前看到的EASYdataset那个项目比较模型一样了，我觉得以后直接用那个比较怕不是更快。