大模型在人文社科中还是难堪大用

对于理科或工科的学生来说,大模型在写小论文时可能已经成为或不可缺的助手了。但是对于人文社科来说,我感觉还是难堪大用。以下是一个小论文作业的例子和评分表。

太长不看版本:术语定义的繁多和模糊,过大的广度,模糊的标准,使得大模型目前还无法胜任人文社科的任务。

从下面任选一个主题写一份1500字的论述

  1. 批判性地分析计算机模拟增强我们对科学和工程学科的理解和预测能力的说法。
  2. 研究与科学与工程中计算机模拟相关的认识挑战,重点关注结果的有效性和解释问题。
  3. 在科学和工程环境中开发和使用计算机模拟时会产生哪些道德考虑?讨论这个问题,使用一个强调潜在社会影响的当代例子。
  4. 批判性评估将人工智能整合到计算机模拟中的程度代表了科学和工程中的真正范式,或者只是现有方法的进化。
  5. 计算机模拟在多大程度上成为应对复杂社会挑战的工具?使用与科学和工程相关的特定案例研究来分析他们的认识和实践贡献。

想拿到70-100主要对四个部分进行评估:
了解认识论和/或伦理学概念:对关键概念和挑战的出色理解和解释,表现出不同概念的复杂相互作用以及批判性地比较与模块相关的概念的能力。

与论文主题相关的论证:一个出色的论点,它提出了有价值的干预,合乎逻辑,并提出了一个清晰而令人信服的案例。确定明确的因果机制是一个优势。可能存在一种新颖的方法来研究该主题。

写作:出色的写作,没有或很少有语法错误或尴尬的措辞。

引用:完美无瑕或几乎完美无瑕的参考文献,引用作品的范围、数量和质量适当。

其中最难的地方在于“了解认识论和/或伦理学概念”和“与论文主题相关的论证”部分。首先是大模型写作时对术语和讲座时不同。理科里面,对于一个术语的解释基本大差不差,而文科里面可能一个术语不同的专业有不同的解释。而这个论证需要从非常多的角度去思考,很难去说到底怎么算一个完美的论证,而相关的资料相对来说是比较少的,永远有一个新的角度可以重新论证,不像理科某一个东西已经被研究烂了。评分是非常主观的,我基本没有看到有人能拿到80分以上的成绩。因为想要拿到出色的等级(80+),除非你刚好写到评分的人的痛点时才有可能(而且会进行控分)

总结,术语定义的繁多和模糊,过大的广度,模糊的标准,使得大模型目前还无法胜任人文社科的任务。

当然,我觉得如果大模型能做到这一点的话可能离真正的人工智能就差不多了。批判性思维应该是人类最大的优势了。

25 个赞

这里面最大的问题还是:

与论文主题相关的论证:一个出色的论点,它提出了有价值的干预,合乎逻辑,并提出了一个清晰而令人信服的案例。确定明确的因果机制是一个优势。可能存在一种新颖的方法来研究该主题。

引用:完美无瑕或几乎完美无瑕的参考文献,引用作品的范围、数量和质量适当。

这两点,论证很好理解,不同大模型在逻辑推理能力上存在差异,且在不同领域的训练数据不均衡,导致其在特定领域的论证能力可能不足,所以论证本身对模型是个很大的考验。
引用在不联网的情况下需要严格注意模型幻觉, 大模型执行检索任务本身并不出色,尤其是在需要精确引用特定文献时,llm本身并不完全“理解”这些术语,而是通过模式识别和概率分布来生成相关内容。理想情况下,应将大模型与专门的文献数据库结合,让其从特定内容中检索,提高引用的准确性和可靠性。

对于“了解认识论和/或伦理学概念”这部分是模型的优势项目,佬友觉得这部分弱可能跟提问方法和提示词输入有很大关系。一般来说使用大模型要注意大模型的闭环,提问一般是通过小问题分解+方向引导的方式来获取详细回复,比如我们会详细提示:请基于[某学者]对’XX’概念的定义,分析其在[具体情境]中的应用/请基于[某学者]对’XX’概念的定义,分析其在[具体情境]中的应用。

(小声BB时间)
佬友遇到的问题我看了看提问应该是任务设计问题,不应该在单词输入完整要求或者过多要求,任务设计不应该在单次输入中提出过多要求,而应该采用“生成框架->针对单一点提供理论或案例->进一步细化”的渐进式方法。

6 个赞

毕竟目前又不是代替脑子的(

你说的是去年大模型,现在的大模型已经不同了,加上搜索文献的功能,已经非常强悍,再发展一段时间,替代是毫无疑问的

佬写的好好

因为认识论是个非常模糊的概念,尤其是在不同学科里面,怎么理解它非常主观。比方说我摘取维基百科的定义(翻译过):


可以看到这对如何写好这篇小论文似乎起不到任何帮助。且,基本不存在说某学者对XX概念的定义。因为是否理解认识论或伦理学对于写好这篇论文来说并不重要。更重要的是你从什么角度出发,并且如何论证你的论点。

引用的话现在大模型基本上也能给出正确的文献了,这一点倒是还行。但是问题是如何选择文献才难,而这又要亲自去读了,因为不像理科某一份文献就是专门研究某个问题的。

说实话,对于一个有想法的人,哪怕从来没上过这门课的人都可以写好这篇小论文。因为他所需要的仅仅是找案例支持他的论证。但是正是论证这一步是最难的也是大模型最弱的我觉得

我的脑子已经不堪其用了 :dizzy_face:

1 个赞

文科我觉得是真不行:joy:理科更看的是对某一个概念的理解,而这个是确定的。但是文科主要是在这门课的内容中对论点的论证。比方说计算机模拟这个主题就是限定的,直接让大模型联网搜索写出来的东西就是错误的。而自己去理解这个概念又很难因为它本身就是模糊的

参考文献的真实引用确实一直是 LLM 幻觉还没解决的痛点,但抛开这个,LLM 其实在文本这块真的算杀疯了,语言模型当之无愧的,表现不好可能是prompt 的问题,单论语言这块儿估计是真到瓶颈了,所以各个厂商转变风向去搞 reasoner,挖挖理科的墙角 :tieba_071:

这里得点名一下 arthropic这个偏科生,半年没动静了,能不能来点大的,不玩推理继续剑走偏锋也行啊 :tieba_025:

3 个赞

我觉得论证挺难的,很吃个人的理解。如果本身并不理解计算机模拟以及如何去论证它的角度,怎么问大模型都做不到。问题是要是已经理解了这个概念的话已经不怎么需要大模型了:joy:。也是为什么很多人感觉文科无用,好像每个人都能说上一两句。但是在特定的学科背景下去论证一个观点我觉得是大部分人都做不到的

我记得vmz说过deepseek的文科水平和高校里的水平一般的教授差不多,我前年管理学本科毕业时老师还说过chatgpt写的比一般学生写的都好,可见你这种提问方法对本科大论文是有效的。但对于硕士小论文,哪怕是你觉得大模型擅长的理工科也不可能就这样凭空让大模型生成。。。最多找几篇相关领域的让它缩写再扩写背景相关工作之类的,方法里的模块还是要自己去缝,故事还得自己编,大模型要能解决编故事问题的话那发文门槛就太低了吧。。这应该就是你说的文科主观评分的部分吧,其实都一样,理工科就是比文科多了一步,要缝好模块做好实验再编故事,现在人人都说自己是sota,故事编不好小论文也是很难发的。

1 个赞

你是指语不惊人死不休的那种创作吗,那确实难为它了,毕竟生成式不是创作,对于一些学术论文或者严肃文学,它称得上登峰造极了

vmz我知道有这个人但是不太了解他。我本身是理科的,这样的小论文也写过很多了。理科的话我觉得比文科的简单多了,想更好的论证只需要不断加深理论的深度。比如说做计算化学模拟,简单点可能是HF理论稍微解释一下,深入就是解释其他基组。就是说理科的脉络是很清晰的,很容易让大模型深入解释。但是文科这玩意,简直无从下手。直接让大模型生成一看就知道是一些很空泛的东西。

知识库啊,把相关参考资料以离线文本,线上链接等方式给他,以后让他优先从自己提供的资料里挑选,当模型的推理可以达到某种程度,就能极大减少幻觉。现阶段的大模型能力和本地知识库都不算太好用,但是如果看notebookllm还是很有想象力的

1 个赞

我觉得主要问题是不知道怎么提问大模型:joy:,直接让大模型生成的话就是一些泛泛而谈的东西,也没有严谨的论证过程和新颖的论证角度。理科的小论文可能就是把一个东西已现有的理论解释清楚,但是文科可能就是创作:joy:哪怕写作磕磕绊绊,但是只是一个新的思考角度都能让人很亮眼。

我觉得在现在的深度学习架构下做不到,可能以后要等大佬开发能思考的架构,哪怕只有儿童智商都行

支持知识库的模型太少了,主流的几个大厂都没搞,而且知识库的 向量化 底层逻辑和 LLM 设计有所偏颇,更像是因为 LLM 上下文 token 限制的妥协选择,还有很长路要走,现在拿来当说明书用就可

deepseekr1就已经有很大进步了,估计再过不久就会发展的很迅速

额,我让r1回答过这个问题。说实话,不尽人意,我看不到有“思考”的痕迹。虽然有点强人所难,但是现在的大模型确实无法较好的完成这类任务。我估计在现有的生成式架构下应该是做不到的

大模型生成内容的上限很高的
很大程度上取决于提问质量 :tieba_087: