微软推理模型再升级 Phi-4-reasoning-plus

一些参数:

AIME 24 AIME 25 OmniMath GPQA-D LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning 75.3 62.9 76.6 65.8 53.8
Phi-4-reasoning-plus 81.3 78.0 81.9 68.9 53.1
OpenThinker2-32B 58.0 58.0 64.1
QwQ 32B 79.5 65.8 59.5 63.4
EXAONE-Deep-32B 72.1 65.8 66.1 59.5
DeepSeek-R1-Distill-70B 69.3 51.5 63.4 66.2 57.5
DeepSeek-R1 78.7 70.4 85.0 73.0 62.8
o1-mini 63.6 54.8 60.0 53.8
o1 74.6 75.3 67.5 76.7 71.0
o3-mini 88.0 78.0 74.6 77.7 69.5
Claude-3.7-Sonnet 55.3 58.7 54.6 76.8
Gemini-2.5-Pro 92.0 86.7 61.1 84.0 69.2

12 Likes

跑分没有输过,实际占有率,效果不太行,微软到现在连谷歌的屁股都摸不到,财力也不差,怎么这么弱

8 Likes

phi今年动静好像完全消失了w

6 Likes

主要是其他模型太亮眼了

5 Likes

看着还行

4 Likes

微软的大模型…
初用早年的 WizardLM2,感觉真不错,没过多久,微软说要回炉重炼,然后…,大概炼成灰了,消失无踪
去年说要推 MAI 模型,匹敌 ChatGPT,然后…,时隔一年,搞了一个魔改 Deepseek-R1 的 MAI-DS-R1
Phi 系列倒是还算稳定,持续更新,不过定位真的一言难尽

2 Likes

phi就不高不低 中间的状态

3 Likes

感觉要猫腻

2 Likes

这个我记得不好用

2 Likes

微软之前我感觉唯一一个好用的就是一个手写ocr的模型。

1 Like

phi4是20B一下最强的开源模型(还没测qwen3),gemma3也不如phi4,deepseek r1的蒸馏模型也不行
你不能只看大的模型,你要是有数据不能传上网就知道这么nb的小模型有多重要了

1 Like

它才14B啊,int4量化后轻薄本都能用cpu跑
这么小你和其他参数量比它大一两个数量级的模型有啥好比的
在20B一下现在还没一个能打phi4的(qwen3还没试)

4 Likes

我几乎没用过 API,尤其第三方的 API,个人会用用官方应用

1 Like

看来是本地部署中的佼佼者

1 Like

應該是為了讓輕薄本也有能力用上AI

1 Like

拉下来试一下

测了qwen3了,在我的任务下phi4 14B(非推理)的回答勉强符合要求,qwen3 14B和gemma3 12B都非常烂

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。