从化学角度对比4o和deepseek模型

叠甲:这是一个很粗略的对比,我只是单纯从个人感兴趣的方面对比了一下两者,从一个个人用户角度出发。求轻喷 :sob:

结论放前面: R1思考逻辑上强于4o,但是效率不如4o(思考时间太长)。不开R1连简单的问题都做不出来。目前感觉是可以把4o的额度用完之后去用R1。数据分析方面,4o文笔更好,但是R1无限额度可以不停调整,个人感觉R1更有优势。图片理解和生成方面,4o完胜

问题1:for a face centred cubic unit cell, how many atoms are there per unit mesh for (110) surface。(对于面心晶胞,在(110)这个面上有多少个原子?)


这是面心晶胞的结构

4o:


回答的没有问题

deepseek(不启动R1和联网搜索):


回答错误,首先是输错了有多少原子在角落,同时还搞错了面心原子的贡献。

deepseek(仅启动R1):


输出结果正确,思考逻辑与4o相似,但是开了R1之后思考了130秒才得出这个答案。从我个人角度来看效率不如4o

问题2: if the cell is cut along (110) surface, how many bonds are broken per unit mesh?(如果沿着(110)这个面切,每个面有多少个化学键会断裂?)

从人类的角度来看,需要通过晶胞的结构判断每个原子一共有多少键断裂,然后再判断每个位置的原子分别被多少个面分享,再加起来,再加上被这个面切断的两个键,这个答案是12。

由于不启动R1的deepseek连第一个问题都答不上来,我直接放弃它了直接上R1。尽管4o和R1给出结果都是8都是错的(所以我就不放图了),但是4o的逻辑是完全错的,而R1思考中一开始用了一个矩阵的方法,得出了一个正确的一级结论,但是后来又认为这个角度错了往错误方向思考去了。我又开了联网搜索再问一次,也是一级结论正确但是又否定了自己。确实第二个问题有点强人所难,但是粗略的判断来说R1逻辑上比4o更强,但是表现结果还是有待考量谁更强(我觉得可能会差不多)。不开R1给出的结果就很离谱。我又去测试了一下4o-mini,发现得出的结论和不开R1一样(你们俩玩我是吧(╯▔皿▔)╯)。

综上所述,我个人感觉可以先把4o的额度用完之后直接去用R1(毕竟R1思考时间太长了),而4o-mini可以进垃圾堆了。R1目前好像是网页版无限额度而api百万级token才几毛钱,所以我觉得deepseek目前是挺爽的,感谢中国AI的发展 :yum:。(但是不知道以后会不会出现新的收费模式)

之后我会再测一下以下几个搞学术需要的功能:1. 分析图片 2.作图 3.读文献 4.写文章 5.写代码

有朋友补充了o1对第二个问题的回答(感谢grubs)

这个回答比R1的回答的更对一些(虽然仍然是错的),每个原子确实少了五个键。只算原子的话确实是少了10个键,但是(110)这个面还切断了两对面心原子的之间的键。o1看来是少算了这个。照这么看r1好像在这个方面没有o1强(当然,这两个模型更偏数理方面有点强人所难了),但是这个思考时间也太久了,接近R1的两倍了

数据分析对比
以下是提问:
You are asked to write a scientific report about relative energy of different substituents on a cyclohexane. Focus on result and discussion only. Here is the data: C6H11R R = H R = CH3 R = C2H(ethynyl group) R = Cl R = C2H3 (vinyl group) Chair-Axial 0.000 9.251 2.521 3.577 9.015 Twist-Boat 27.120 29.177 28.278 28.866 28.956 Chair-Equatorial 0.000 0.000 0.000 0.000 0.000
(大意为:你被要求根据以下的数据写一份科学报告,专注于结果和讨论部分)

由于文章相对较长我就不放上来了,我直接语言描述(注意,好与不好基于个人判断)
4o和R1的解释都差不多,其中都有一个错误结论(Cl比比CH3小),哪怕R1开了联网搜索这个地方也是错的。R1提到了乙炔基团是个直线结构,这点好评。开了联网搜索之后deepseek提了乙烯基有1,3 diaxial interaction,不错。
总体来说,R1和4o都没有深入讨论结果,R1的联网搜索只能找到一些粗糙的结论,指望一次性让模型写的很好看来是不太可能了。R1的联网搜索不能代替人去找资料,也就是说你还是需要自己去读论文找资料,然后把资料喂给模型。模型适合写文章而不是代替你去找资料学习所以懒狗是当不了了。文笔方面我觉得4o的文笔更好,R1基本上是以点的形式给出来的。
既然模型无法自己去深入挖掘资料,那我觉得对于懒人来说4o会更好一些,因为可以直接复制它写的东西到你的报告里去(还是要稍微改改的)。但是如果你对报告的要求更高,同时自己有找资料分析的能力,4o和R1各有优势。4o优势在于它文笔写的更好,但是它的免费额度是有限的,所以你要知道怎么节省资源。R1目前是无限度的所以你可以不停的调整,这一点真的很爽,不用精打细算了(快进到暴发户模式),但是R1的思考时间又有点久。如果4o无限额度我想我会选择4o(有一些使用惯性存在),但是既然R1是无限额度的那chatgpt不好意思了 :yum:

图像理解和生成
这个方面R1完败。我先是分别给了一段代码让模型生成一个流程图。R1我不知道为什么生成不出来,4o这边能生成,但是是个错的,跟它说是错的让它重新生成出来也是错的:clown_face:。然后我给两个模型都先喂了一个流程图的例子,R1连流程图的内容都理解错了。4o在有例子之后根据代码生成的流程图虽然有些粗糙,但是逻辑上是对的。这一方面4o完胜了。R1有个离谱的地方在于当我跟它说: You are asked to generate a flow chart based on my code. I will give you an example first
这么一句开场白的时候,它思考了21秒才能回复。。。我觉得这个算是逻辑链思考的缺点,一些很简单的对话它也要思考很久。

26 个赞

支持一下!

2 个赞

识图可以不用测了,deepseek官方人员说过,那个上传图片只是ocr,没有大模型视觉能力

5 个赞

我也发现了,Deepseek似乎强化了数学和物理方向的思考能力,但是化学生物材料等方向不如其他模型,有些偏科 :joy:

1 个赞

deepseek好像不是多模态模型w

1 个赞

r1不能识图啊

r1对标o1啊

很期待楼主后续的测评,咱中国的ai就得给价格打下来 :innocent:

1 个赞

用图片不太公平,毕竟deepseek的识图功能仅仅是ocr

1 个赞

很多文章现在都在澄清o1和四o的区别
这两个完全不是一个层次
侧重点完全不同
因此
Ds对 标的是前者 和后者比较有点不太好
打o1说不定能打赢 :thinking:

等待测试结果

感谢大家的回复。虽然R1对标的是o1,侧重点不像4o,但是识图方面我可能还是要对比一下的:joy:。毕竟对于我这种只用4o免费额度来说,去测o1有点办不到。不过也好分辨哪些任务4o表现的更好,哪些r1表现的更好。到时候可以按功能选择不同的模型

还要看看日常任务来说哪个模型表现更好

1 个赞

没米搞o1​:sob:平时都是用4o免费额度的:sob:

免费这一点确实已经远胜gpt了,不过还要看看不同使用场景哪个表现的更好

o1也做不对第二题 :rofl:

这个比我问R1的更对一些,每个原子确实少了五个键。只算原子的话确实是少了10个键,但是110这个面还切断了两对面心原子的之间的键。o1看来是少算了这个。照这么看r1好像在这个方面没有o1强啊(当然,这两个模型更偏数理方面有点强人所难了),但是这个思考时间也太久了吧:joy:

如果是多模态模型就好了

说实话,deepseek确实轰动了世界。不管是不是计算机行业都在关注这个事情。就刚才我跟一外国的教授聊天,他也关注了这个事情,尽管他是化学领域的。不用怀疑是不是洋人在恰爱中国饭,这次确实是世界都在关注这个事,令人振奋。

看不懂啊