虽然说是效果记录,但是我毕竟没有设备。只能拾人牙慧,权当记录一个笔记。
一直以来我对大模型的效果评估都抱有疑问:要如何去测试,尤其是在数据有限的情况下测试。模型在哪方面的性能好由什么决定?
视频开头也说明由于大模型对于硬件要求高,本地硬件配置很麻烦导致本地部署很鸡肋。但是千问3居然能用4B打千问2.5的72B。并且和DSV3也是能比的,这个就很有用了。
然后看了下他的视频,对比是比较同一个问题在多个模型的输出结果的。嗯,这个其实就和我之前看到的EASYdataset那个项目比较模型一样了,我觉得以后直接用那个比较怕不是更快。