等麻了,开源模型好久没大动静了
如果只有已知的两个小模型,Qwen3 还是继续延后吧
上周我在L站问阿里最近在干什么, 里面有佬说周五可能发qwen3. 嘛…我就知道
XHS上刷到有不愿透露姓名的人士表示,Qwen3 马上就发了,但月初就有人这么说了。。。。
R2的话,Deepseek之前发推理引擎开源宣言的时候,最后有一句,“我们承诺在发模型之前为各大开源推理引擎提供支持,从而让大家在第0天就享受到模型部署的便利。”因此,如果看到Github上推理引擎有人Commit支持R2的代码了,说明就快了,但目前还没有相关的Commit。
但是话说回来,Qwen3 月初就Commit了,但到现在也没发。。。。。
发布的时候来
现在一些人开始质疑阿里分散资源大炼小模的策略了。我觉得不只是小模的问题,阿里这样持续分散资源训练模型的操作实在是看不懂。
本来国内计算资源就不足,还要分几个BU研发大模型,通义搞了,蚂蚁也搞,现在淘天又在搞,通义内部也在分散,研发了一堆小模型,qwen3难产到现在了。
字节虽然在AI应用上内部赛马,但大模型已经完成整合,全部划到Seed下面。腾讯元宝+混元的架构也很明确了,阿里却越来越分散,这样下去后面怎么竞争。
说实话还是希望Qwen雄起的,希望这段评论将来被Qwen3打脸。
感觉qwen3难产了
deepseek r2估计得等deepseek v4出来 再强化一下
现在就期待deepseek v4能上多模态
V3.5还没出就V4了?
为什么不能跳过3.5呢 况且0324版本也算小版本更新了
如果搞多模态 就更没必要命名3.5了
看这情况,要么是在憋大的要么是拿不出台面难产了
希望DeepSeek憋个大的出来
大不一定就好,尝试更多路线和创新可能更有价值
参考llama4,用了20万个显卡的集群,规模史无前例的大。。。结果。。。
是的大并不代表好,很多小模型在本地部署能力上,或者特定领域展现出了极强的实力和不可替代性。
但阿里是一家All in AI 的巨无霸跨国集团。这几天,Llama4 跌落神坛,Meta白白让出了全球开源模型的头把交椅,阿里面对唾手可得的巨大机遇,真的会无所作为,把市场拱手让给Deepseek,自己甘心发发小模型?以阿里的狼性我觉得绝对不会。
而且,随着多模态引入,模型领域越来越多地出现“一力降十会”的现象。无论是gpt4o画图赶超flux,mj,还是gemini 2.5语音识别超越专用语音模型,都显示出大模型,特别是多模态大模型,相较于小模型的显著优越性。以阿里的体量,一个全能多模态大模型显然也是有必要训练出来的。
一家之言轻拍。
希望dp4和r2能上多模态
快了快了!
再等等,说不定在憋大招
确实,以阿里的体量,一直在搞小模型,可能以后连开源领域的头把交椅都没资格竞争了
再推理就晕过去了,越推越晕
说实话,多模态能力的缺失是我不太会选择r1的一个很重要原因,希望v4和r2能注重这方面能力吧
以后开源模型只会被闭源模型远远的甩开,因为开源是裸模,闭源模型背后有一整套(作弊)服务,就像就像拿着资料和笔记本电脑的考生vs只拿着一支笔考生