因为用了混合架构,manba transformer,所以速度快
就是看知识库里有没有吧
不对哦,知识库都有的,就看能不能出来,因为如果合理的引导,比如,这是一个网络梗,大部分的模型都可以回答出来,包括国外的。而只有R1会主动联想去理解这句话得背后意思,可能是网络梗,其他的都不行。
元宝那个也是显示的t1,现在就t1和r1两个选择模型
测试T1的数学计算能力挺强的
https://llm.hunyuan.tencent.com/#/chat/hy-t1
測了幾個題目回答跟 r1 一樣,應該是 r1 下去微調的
这思考方式真的很deepseek
真的快,逆得也很快
按公布的消息来看,T1应该是混合框架,底层不止用了Transformer还用了Mamba,不是R1的微调
试了下翻译和酒馆,一句话总结就是语言能力和指令遵循差的离谱。把api里的安全限制关了的话瑟瑟本身完全没限制,但小说日翻中感觉就像机翻,话都讲不明白,好久没看过大模型翻译这么差了(我用linguagacha然后随便扔了篇小说进去的,因为模型不支持prefill我把prefill过滤掉了)。至于酒馆就更离谱了,完全不遵守格式,我让他输出json和表格都一直乱套,写的东西也乱七八糟,明明思考过程很正常,输出结果根本看不懂在写啥,不知道是不是长上下文的缘故。虽说是推理模型也不至于这么离谱吧,这训练完是除了数学和编程别的全都忘了是吧,基本语言能力和指令遵循都丢失了
混元模型还行,比方说这道题目o3 mini high答不对混元对了
当然,Deep Research也对了
正好刚问了Deepseek R1一个问题,就用这个问题问了混元T1一下,给我看懵了。。。也太相似了。
这是DeepSeekR1的:
这是混元T1的:
这个思考过程非常相似遣词用语和例子都一样。
为了判断是不是思考模型都这样,我试了试Gemini-2-Flash-thinking模型,看得出来明显不同。
最后再加个Grok3的思考模型结果:
大概率是R1蒸馏数据的一个优化?也有可能是RL后的
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。