从化学角度对比4o和deepseek模型

aptly3xa · 2025 年1 月 27 日 22:44

叠甲：这是一个很粗略的对比，我只是单纯从个人感兴趣的方面对比了一下两者，从一个个人用户角度出发。求轻喷

结论放前面： R1思考逻辑上强于4o，但是效率不如4o（思考时间太长）。不开R1连简单的问题都做不出来。目前感觉是可以把4o的额度用完之后去用R1。数据分析方面，4o文笔更好，但是R1无限额度可以不停调整，个人感觉R1更有优势。图片理解和生成方面，4o完胜

问题1：for a face centred cubic unit cell, how many atoms are there per unit mesh for (110) surface。（对于面心晶胞，在(110)这个面上有多少个原子？）

这是面心晶胞的结构

4o：

回答的没有问题

deepseek（不启动R1和联网搜索）:

回答错误，首先是输错了有多少原子在角落，同时还搞错了面心原子的贡献。

deepseek（仅启动R1）：

输出结果正确，思考逻辑与4o相似，但是开了R1之后思考了130秒才得出这个答案。从我个人角度来看效率不如4o

问题2： if the cell is cut along (110) surface, how many bonds are broken per unit mesh?（如果沿着(110)这个面切，每个面有多少个化学键会断裂？）

从人类的角度来看，需要通过晶胞的结构判断每个原子一共有多少键断裂，然后再判断每个位置的原子分别被多少个面分享，再加起来，再加上被这个面切断的两个键，这个答案是12。

由于不启动R1的deepseek连第一个问题都答不上来，我直接放弃它了直接上R1。尽管4o和R1给出结果都是8都是错的（所以我就不放图了），但是4o的逻辑是完全错的，而R1思考中一开始用了一个矩阵的方法，得出了一个正确的一级结论，但是后来又认为这个角度错了往错误方向思考去了。我又开了联网搜索再问一次，也是一级结论正确但是又否定了自己。确实第二个问题有点强人所难，但是粗略的判断来说R1逻辑上比4o更强，但是表现结果还是有待考量谁更强（我觉得可能会差不多）。不开R1给出的结果就很离谱。我又去测试了一下4o-mini，发现得出的结论和不开R1一样（你们俩玩我是吧(╯▔皿▔)╯)。

综上所述，我个人感觉可以先把4o的额度用完之后直接去用R1（毕竟R1思考时间太长了），而4o-mini可以进垃圾堆了。R1目前好像是网页版无限额度而api百万级token才几毛钱，所以我觉得deepseek目前是挺爽的，感谢中国AI的发展。（但是不知道以后会不会出现新的收费模式）

之后我会再测一下以下几个搞学术需要的功能：1. 分析图片 2.作图 3.读文献 4.写文章 5.写代码

有朋友补充了o1对第二个问题的回答（感谢grubs）

这个回答比R1的回答的更对一些（虽然仍然是错的），每个原子确实少了五个键。只算原子的话确实是少了10个键，但是(110)这个面还切断了两对面心原子的之间的键。o1看来是少算了这个。照这么看r1好像在这个方面没有o1强（当然，这两个模型更偏数理方面有点强人所难了），但是这个思考时间也太久了，接近R1的两倍了

数据分析对比
以下是提问：
You are asked to write a scientific report about relative energy of different substituents on a cyclohexane. Focus on result and discussion only. Here is the data: C6H11R R = H R = CH3 R = C2H(ethynyl group) R = Cl R = C2H3 (vinyl group) Chair-Axial 0.000 9.251 2.521 3.577 9.015 Twist-Boat 27.120 29.177 28.278 28.866 28.956 Chair-Equatorial 0.000 0.000 0.000 0.000 0.000
（大意为：你被要求根据以下的数据写一份科学报告，专注于结果和讨论部分）

由于文章相对较长我就不放上来了，我直接语言描述（注意，好与不好基于个人判断）
4o和R1的解释都差不多，其中都有一个错误结论（Cl比比CH3小），哪怕R1开了联网搜索这个地方也是错的。R1提到了乙炔基团是个直线结构，这点好评。开了联网搜索之后deepseek提了乙烯基有1,3 diaxial interaction，不错。
总体来说，R1和4o都没有深入讨论结果，R1的联网搜索只能找到一些粗糙的结论，指望一次性让模型写的很好看来是不太可能了。R1的联网搜索不能代替人去找资料，也就是说你还是需要自己去读论文找资料，然后把资料喂给模型。模型适合写文章而不是代替你去找资料学习所以懒狗是当不了了。文笔方面我觉得4o的文笔更好，R1基本上是以点的形式给出来的。
既然模型无法自己去深入挖掘资料，那我觉得对于懒人来说4o会更好一些，因为可以直接复制它写的东西到你的报告里去（还是要稍微改改的）。但是如果你对报告的要求更高，同时自己有找资料分析的能力，4o和R1各有优势。4o优势在于它文笔写的更好，但是它的免费额度是有限的，所以你要知道怎么节省资源。R1目前是无限度的所以你可以不停的调整，这一点真的很爽，不用精打细算了（快进到暴发户模式），但是R1的思考时间又有点久。如果4o无限额度我想我会选择4o（有一些使用惯性存在），但是既然R1是无限额度的那chatgpt不好意思了

图像理解和生成
这个方面R1完败。我先是分别给了一段代码让模型生成一个流程图。R1我不知道为什么生成不出来，4o这边能生成，但是是个错的，跟它说是错的让它重新生成出来也是错的。然后我给两个模型都先喂了一个流程图的例子，R1连流程图的内容都理解错了。4o在有例子之后根据代码生成的流程图虽然有些粗糙，但是逻辑上是对的。这一方面4o完胜了。R1有个离谱的地方在于当我跟它说： You are asked to generate a flow chart based on my code. I will give you an example first
这么一句开场白的时候，它思考了21秒才能回复。。。我觉得这个算是逻辑链思考的缺点，一些很简单的对话它也要思考很久。

prya · 2025 年1 月 28 日 00:53

支持一下！

Suzu · 2025 年1 月 28 日 01:03

识图可以不用测了，deepseek官方人员说过，那个上传图片只是ocr，没有大模型视觉能力

covfefe · 2025 年1 月 28 日 01:15

我也发现了，Deepseek似乎强化了数学和物理方向的思考能力，但是化学生物材料等方向不如其他模型，有些偏科

6512345 · 2025 年1 月 28 日 01:27

deepseek好像不是多模态模型w

handsome · 2025 年1 月 28 日 01:45

r1不能识图啊

hyperion · 2025 年1 月 28 日 05:26

r1对标o1啊

nbdql · 2025 年1 月 28 日 05:28

很期待楼主后续的测评，咱中国的ai就得给价格打下来

Aopex · 2025 年1 月 28 日 05:29

用图片不太公平，毕竟deepseek的识图功能仅仅是ocr

StellaFortuna · 2025 年1 月 28 日 05:31

很多文章现在都在澄清o1和四o的区别
这两个完全不是一个层次
侧重点完全不同
因此
Ds对标的是前者和后者比较有点不太好
打o1说不定能打赢

scckone1 · 2025 年1 月 28 日 05:56

等待测试结果

aptly3xa · 2025 年1 月 28 日 11:55

感谢大家的回复。虽然R1对标的是o1，侧重点不像4o，但是识图方面我可能还是要对比一下的。毕竟对于我这种只用4o免费额度来说，去测o1有点办不到。不过也好分辨哪些任务4o表现的更好，哪些r1表现的更好。到时候可以按功能选择不同的模型

aptly3xa · 2025 年1 月 28 日 11:58

还要看看日常任务来说哪个模型表现更好

aptly3xa · 2025 年1 月 28 日 11:59

没米搞o1平时都是用4o免费额度的

aptly3xa · 2025 年1 月 28 日 12:00

免费这一点确实已经远胜gpt了，不过还要看看不同使用场景哪个表现的更好

grubs · 2025 年1 月 28 日 13:33

o1也做不对第二题

aptly3xa · 2025 年1 月 28 日 14:33

这个比我问R1的更对一些，每个原子确实少了五个键。只算原子的话确实是少了10个键，但是110这个面还切断了两对面心原子的之间的键。o1看来是少算了这个。照这么看r1好像在这个方面没有o1强啊（当然，这两个模型更偏数理方面有点强人所难了），但是这个思考时间也太久了吧

laosaonan2 · 2025 年1 月 28 日 14:36

如果是多模态模型就好了

aptly3xa · 2025 年1 月 28 日 15:20

说实话，deepseek确实轰动了世界。不管是不是计算机行业都在关注这个事情。就刚才我跟一外国的教授聊天，他也关注了这个事情，尽管他是化学领域的。不用怀疑是不是洋人在恰爱中国饭，这次确实是世界都在关注这个事，令人振奋。

Kuan · 2025 年1 月 28 日 15:21

看不懂啊

话题		回复	浏览量
这道题只有DeepSeek R1会做！搞七捻三 DeepSeek , 人工智能	77	1471	2025 年1 月 22 日
DeepSeek R1 Lite Preview明显被夸大且表现不佳搞七捻三人工智能	13	1286	2025 年1 月 21 日
疑似找到一个只有 DeepSeek-R1 才能答出来的题目搞七捻三人工智能	42	947	2025 年2 月 2 日
【长期更新Wiki】语言模型区分题库：主要用来区分语言模型，也能测试逻辑能力文档共建人工智能	540	7959	2025 年2 月 7 日
DeepSeek还在持续上分！打败o1位列世界最难基准测试Humanity's Last Exam第一名前沿快讯人工智能	29	1207	2025 年1 月 26 日

从化学角度对比4o和deepseek模型

相关话题