大家不要下 MHKetbi/Mistral-Small3.1-24B-Instruct-2503 这个模型了,太差了

之前下了一个gemma3:27b,看到测评说Mistral-Small 3.1 比gemma3更好用。就下来一个试试。太差了。基本没法用。说着说着,就开始飙英文。你跟他说,需要中文答复。过一会还是继续飙英文。
输入一些逻辑题,结果答复内容乱七八糟的。这种是什么情况?一个简单的问题,本来就1~2句话就可以答复,但是它输出了一堆重复的长文。难道只有我的是这样的吗?
这么差,那些测评的人,简直是昧良心说瞎话呀!

9 个赞

雀食烂得一匹,跟它说话每五六句就得“请使用中文!”,幻觉更是几乎每个回复都有幻觉,生成的文章总结也是假大空

1 个赞

看这个就知道不是啥好模型

1 个赞

啊?我一直都在用mistral api里的这个模型,感觉还可以啊

:bili_040: 再怎么吹捧,小杯天才小学生齐平甚至吊打量级高几十上百倍大杯博士生这种说辞我都是看看罢了。

1 个赞

首先你下载的是量化版本,量化会对模型造成性能损失,尤其是小模型。
其次,你下载的是非官方的量化版,本地部署。我见过很多人因为这些步骤踩了坑,怪罪在模型上。(别问,问就是我也踩过
我建议:如果对模型性能有要求,一定需要测试,并且优先采用官方的API来测试(有个非常好的点是Mistral官方给了免费用户非常高的API使用量,尤其是小模型),或者至少是大厂部署的API,测得差不多了,觉得能用了,再本地部署。这样可以排除本地部署导致的性能损失。

帮你顶一下

非要本地部署的话

至少自己搭transformer跑
至少q8量化

再来测试能力

我使用的是ollama这边下载的版本。如果是通过官方API的话,那么我就搞chatgpt,grok这些了。就是看它可以本地部署。可以使用在无网络的环境。
我现在就是期望有一个比gemma还好一些的小模型(没有GPU资源)。虽然gemma已经基本达到可用的情况了。就是对于prompt命令的执行,还是差一丢丢。比不上其宣传的比Deepseek v3的满血版要好。
现在应该还没有比Gemma3好的小模型吧。Mistral-Small的宣传比Gemma3好(仅说本地部署)。还差很远,还没有达到我认为"可用"的情况。至少应该比gpt-3.5好吧,没有看到这个结果。

我以前搭建过,就是复杂一些。请问通过ollama,和自己搭建transformer,差别很大?为何?

ollama的q4模型和没有量化的模型差距挺大的

:bili_040: Deepseek V3 可是仅次于甚至持平中文 Top.1 的 DeepSeek R1 的,这要求可太高了。

这个版本都47G了(Gemma3才17G)。你说的没有量化的,还要大?而且对硬件要求也更高吧。能用一张卡,可以正常使用,这才是划时代的产品。

这个是其宣传的比拼测试。所以说它有点吹牛了。但是它毕竟是一张卡,就可以正常跑,性能也差不多。所以还是不错的。

我建议你试试他的官方api,测试一下他的真实水平,本地的话不同的人量化效果也不是很相同

从qwen的vl开始到gemma3,包括最近的Mistral-small3.1,这些视觉模型似乎llama.cpp支持的都很差。
所以Ollama还有LM Studio这些基于llama.cpp的多少都有点毛病。
我已经准备换vllm再试试了

切换,测试了好用,记得分享一下。哈哈哈!
但是ollama确实提供非常好的体验。之前下载过gpt4all,也不太行。ollama感觉要好很多。

你要看测试哪一个方面,我也用MHKetbi/Mistral-Small3.1-24B-Instruct-2503,量化到12G显存能全部装下,挺好用的。

至少在数学复述和计算方向,要明显强过Gemma3的。(比如你让他背诵PI小数后面几位,3.1可以背诵到后面一百多位,而gemma3只有背一半就出错了)处理数字文档(注意不是文章),记忆力也很强。

但是也有不足。中文语料少,老是蹦出英文/繁体中文。而且用在沉浸式翻译里,是会被gemma3秒杀的存在。

Gemma3才17G

这个17G的大小我看了下,也是Q4量化的,Gemma3的FP16模型文件有55G.

测试模型性能我们一般不会选量化版本,或者说,大脑被阉割过的版本。

55G这个,会好用很多?如果在用,能否举一下例子。看区别是多大。谢谢!