叠甲:这是一个很粗略的对比,我只是单纯从个人感兴趣的方面对比了一下两者,从一个个人用户角度出发。求轻喷
结论放前面: R1思考逻辑上强于4o,但是效率不如4o(思考时间太长)。不开R1连简单的问题都做不出来。目前感觉是可以把4o的额度用完之后去用R1。数据分析方面,4o文笔更好,但是R1无限额度可以不停调整,个人感觉R1更有优势。图片理解和生成方面,4o完胜
问题1:for a face centred cubic unit cell, how many atoms are there per unit mesh for (110) surface。(对于面心晶胞,在(110)这个面上有多少个原子?)
这是面心晶胞的结构
4o:
回答的没有问题
deepseek(不启动R1和联网搜索):
回答错误,首先是输错了有多少原子在角落,同时还搞错了面心原子的贡献。
deepseek(仅启动R1):
输出结果正确,思考逻辑与4o相似,但是开了R1之后思考了130秒才得出这个答案。从我个人角度来看效率不如4o
问题2: if the cell is cut along (110) surface, how many bonds are broken per unit mesh?(如果沿着(110)这个面切,每个面有多少个化学键会断裂?)
从人类的角度来看,需要通过晶胞的结构判断每个原子一共有多少键断裂,然后再判断每个位置的原子分别被多少个面分享,再加起来,再加上被这个面切断的两个键,这个答案是12。
由于不启动R1的deepseek连第一个问题都答不上来,我直接放弃它了直接上R1。尽管4o和R1给出结果都是8都是错的(所以我就不放图了),但是4o的逻辑是完全错的,而R1思考中一开始用了一个矩阵的方法,得出了一个正确的一级结论,但是后来又认为这个角度错了往错误方向思考去了。我又开了联网搜索再问一次,也是一级结论正确但是又否定了自己。确实第二个问题有点强人所难,但是粗略的判断来说R1逻辑上比4o更强,但是表现结果还是有待考量谁更强(我觉得可能会差不多)。不开R1给出的结果就很离谱。我又去测试了一下4o-mini,发现得出的结论和不开R1一样(你们俩玩我是吧(╯▔皿▔)╯)。
综上所述,我个人感觉可以先把4o的额度用完之后直接去用R1(毕竟R1思考时间太长了),而4o-mini可以进垃圾堆了。R1目前好像是网页版无限额度而api百万级token才几毛钱,所以我觉得deepseek目前是挺爽的,感谢中国AI的发展 。(但是不知道以后会不会出现新的收费模式)
之后我会再测一下以下几个搞学术需要的功能:1. 分析图片 2.作图 3.读文献 4.写文章 5.写代码
有朋友补充了o1对第二个问题的回答(感谢grubs)
这个回答比R1的回答的更对一些(虽然仍然是错的),每个原子确实少了五个键。只算原子的话确实是少了10个键,但是(110)这个面还切断了两对面心原子的之间的键。o1看来是少算了这个。照这么看r1好像在这个方面没有o1强(当然,这两个模型更偏数理方面有点强人所难了),但是这个思考时间也太久了,接近R1的两倍了
数据分析对比
以下是提问:
You are asked to write a scientific report about relative energy of different substituents on a cyclohexane. Focus on result and discussion only. Here is the data: C6H11R R = H R = CH3 R = C2H(ethynyl group) R = Cl R = C2H3 (vinyl group) Chair-Axial 0.000 9.251 2.521 3.577 9.015 Twist-Boat 27.120 29.177 28.278 28.866 28.956 Chair-Equatorial 0.000 0.000 0.000 0.000 0.000
(大意为:你被要求根据以下的数据写一份科学报告,专注于结果和讨论部分)
由于文章相对较长我就不放上来了,我直接语言描述(注意,好与不好基于个人判断)
4o和R1的解释都差不多,其中都有一个错误结论(Cl比比CH3小),哪怕R1开了联网搜索这个地方也是错的。R1提到了乙炔基团是个直线结构,这点好评。开了联网搜索之后deepseek提了乙烯基有1,3 diaxial interaction,不错。
总体来说,R1和4o都没有深入讨论结果,R1的联网搜索只能找到一些粗糙的结论,指望一次性让模型写的很好看来是不太可能了。R1的联网搜索不能代替人去找资料,也就是说你还是需要自己去读论文找资料,然后把资料喂给模型。模型适合写文章而不是代替你去找资料学习所以懒狗是当不了了。文笔方面我觉得4o的文笔更好,R1基本上是以点的形式给出来的。
既然模型无法自己去深入挖掘资料,那我觉得对于懒人来说4o会更好一些,因为可以直接复制它写的东西到你的报告里去(还是要稍微改改的)。但是如果你对报告的要求更高,同时自己有找资料分析的能力,4o和R1各有优势。4o优势在于它文笔写的更好,但是它的免费额度是有限的,所以你要知道怎么节省资源。R1目前是无限度的所以你可以不停的调整,这一点真的很爽,不用精打细算了(快进到暴发户模式),但是R1的思考时间又有点久。如果4o无限额度我想我会选择4o(有一些使用惯性存在),但是既然R1是无限额度的那chatgpt不好意思了
图像理解和生成
这个方面R1完败。我先是分别给了一段代码让模型生成一个流程图。R1我不知道为什么生成不出来,4o这边能生成,但是是个错的,跟它说是错的让它重新生成出来也是错的。然后我给两个模型都先喂了一个流程图的例子,R1连流程图的内容都理解错了。4o在有例子之后根据代码生成的流程图虽然有些粗糙,但是逻辑上是对的。这一方面4o完胜了。R1有个离谱的地方在于当我跟它说: You are asked to generate a flow chart based on my code. I will give you an example first
这么一句开场白的时候,它思考了21秒才能回复。。。我觉得这个算是逻辑链思考的缺点,一些很简单的对话它也要思考很久。