果然,GPT-4.5在本周内推出了,性能全面超越GPT-4o;但是,在推理等更“硬核”的性能上,不及o1和o3 mini (high)。
这是一个更强调情商的大模型;一个快思考,直觉,无监督学习+推理的大模型。它更擅长聊天;知识更渊博;更适于交谈式的搜索;用来写文章会更加自然——减少了机器感;最为人诟病的“幻觉”,有所减少;它更通人性。可能提供更多情绪价值。
GPT-4.5再一次证明,推理是未来大模型的核心能力,但同时OpenAI也在探索把预训练和推理结合起来,互相增强,成为更通用和“天生更智能”的模型。这也许是即将于5月份推出的GPT-5的最大卖点。
如何训练出来的
从GPT-4到4.5,增加0.5,意味着增加10倍的训练算力。
OpenAI称,这是迄今为止最大、最优秀的聊天模型。GPT-4.5在扩展预训练和后训练方面迈出了一大步。通过扩展无监督学习,GPT-4.5提升了其识别模式、建立联系以及在不依赖推理的情况下生成创造性见解的能力。
初步测试表明,用户与GPT-4.5的交互感觉更加自然。它更广泛的知识库、更强的用户意图理解能力以及更高的“情商”,使其在改进写作、编程和解决实际问题等任务中非常有用。预计它的幻觉现象会更少。
GPT-4.5,算力增十倍,训得更通人性
(更深的世界知识:SimpleQA 在简单但具有挑战性的知识问题上衡量 LLM(大型语言模型)的真实性)
OpenAI引领了无监督学习和推理这两个范式,来扩展智能的两个维度。扩展推理是教会模型在响应之前进行思考并生成思维链,使它们能够解决复杂的STEM或逻辑问,o1和 o3-mini动了这一范式的发展。而无监督学习则提高了世界模型的准确性和直觉。
GPT-4.5通过扩展计算和数据,以及架构和优化创新来实现无监督学习扩展。GPT-4.5是在微软Azure AI超级计算机上训练的,拥有更广泛的知识和对世界更深入的理解,从而减少了幻觉现象,并在广泛的主题上表现出更高的可靠性。
OpenAI希望扩展两种互补的范式来提升人工智能的能力。这次是把GPT-4.5作为研究预览版发布,“以便更好地了解其优势和局限性。我们仍在探索它的能力,并期待看到人们以我们可能未曾预料的方式使用它。”
这个模型有多大
OpenAI 在一份之前泄露的文件中表示:“GPT-4.5 不是前沿模型,但它是 OpenAI 最大的 LLM,将 GPT-4 的计算量提高了 10 倍以上。”“与之前的推理版本相比,它没有引入 7 个全新的前沿功能,而且在大多数准备评估中,它的性能低于 o1、o3-mini 和深度研究。” 但OpenAI在正式宣布的文本中删除了这几句话。
GPT-4有大约1.8万亿个参数,如果用于训练4.5的算力高出一个数量级,会有多少参数呢?也许可以从其服务价格上做出一些判断。它比GPT-4o贵15倍,比Claude 3.7贵10-25倍。OpenAI承认,GPT-4.5 是一个非常庞大且计算密集型的模型,因此它比 GPT-4o 更昂贵,但不能替代它。
OpenAI似乎在向人们暗示,GPT 4.5似乎是一个过渡性的产品。“我们正在评估是否继续在 API 中长期提供服务,因为我们在支持当前功能和构建未来模型之间取得平衡。”
OpenAI期待“计算的每一个新数量级都会带来新功能”,的确,增加十倍的算力,拓展了世界知识,但在推理相关的的基准测试上,效果并不显著。
作为无监督学习前沿的模型,GPT-4.5就像在学校里不守规矩、考试成绩不那么好、情商很高的学生,将来是不是也会很有出息,但要证明这些,需要摆脱试卷、走出校园。
所以,OpenAI期待它能在社会上混出个样子,大家都来关心它的成长,“社区在发掘新功能和意想不到的用例方面的创造力不断令我们感到惊讶。借助 GPT-4.5,我们邀请您与我们一起探索无监督学习的前沿并发掘新功能。”
GPT-4.5,算力增十倍,训得更通人性
(人类偏好衡量:测试人员查询后,偏好 GPT-4.5 而不是 GPT-4o 的百分比)
如何使用
Pro 用户已经用上了,下周向 Plus 和 Team 用户推出,之后再向 Enterprise 和 Edu 用户推出。现在也可在 Microsoft 的 Azure AI Foundry平台上使用,同时还有来自 Stability、Cohere 和 Microsoft 的新模型。
用户可以通过ChatGPT使用GPT-4.5。它可以通过搜索获取最新信息,支持文件和图片上传,并可使用画布进行写作和编码。不过,GPT‑4.5 目前不支持 ChatGPT 中的语音模式、视频和屏幕共享等多模式功能。接下来,OpenAI将努力简化用户体验,让 AI “为你而工作”。
在API里,OpenAI还将向所有付费使用层级的开发人员提供预览,包括 Chat Completions API、Assistant API 和 Batch API 中的 GPT‑4.5 。该模型支持函数调用、结构化输出、流式传输和系统消息等关键功能。它还通过图像输入支持视觉功能。
OpenAI将推出GPT-5,它将是一个集大成者,包括了去年12月份宣布的o3。预计5月发布。
OpenAI CEO 奥特曼说过,GPT-4.5将是最后一个非思维链模型。它也意味着,大语言模型如果不带思维推理功能,仅凭在训练阶段扩展无监督学习,已经发展到了顶峰。他事先已经承认,GPT-4.5 是一个“庞大、昂贵的模型”,并且“不会超越基准”。它的科学、数学、编程这三项测试,分数与o3-mini (high)差距明显。但在多语言、多模态和较初级的编程测试方面,胜过了o3-mini (high)。
所以,它更像是OpenAI在过近两年时间里花费巨资进行预训练后给出的一个交待。
GPT-4.5,算力增十倍,训得更通人性
*数据代表内部测试最佳性能
大咖测评
AI大神卡帕西的测评:
今天,OpenAI发布了GPT-4.5。自从GPT-4发布以来,我已经期待了大约两年,因为这次发布提供了一个定性的衡量标准,展示了通过扩展预训练计算(即简单地训练一个更大的模型)所带来的改进斜率。每个0.5版本的提升大致相当于10倍的预训练计算量。
现在,回想一下,GPT-1几乎无法生成连贯的文本。GPT-2是一个混乱的玩具。GPT-2.5被“跳过”,直接进入了GPT-3,这更加有趣。GPT-3.5跨过了门槛,足以作为一个产品发布,并引发了OpenAI的“ChatGPT时刻”。而GPT-4感觉更好,但我会说,这种改进确实很微妙。我记得曾参加过一个黑客马拉松,试图找到GPT-4明显优于3.5的具体提示。这些提示确实存在,但清晰且具体的“扣篮”例子很难找到。这就是……一切都只是稍微好了一点,但以一种分散的方式。词汇选择更有创意。对提示中细微差别的理解有所提高。类比更有意义。模型更有趣一些。在罕见领域的边缘,世界知识和理解有所提高。幻觉出现的频率稍微降低了一些。整体感觉更好了一些。感觉就像是水涨船高,一切都稍微提高了20%。
因此,带着这种期望,我开始测试GPT-4.5,我已经接触了几天,它的预训练计算量是GPT-4的10倍。我感觉,我再次置身于两年前的那个黑客马拉松中。一切都稍微好了一点,这很棒,但也并不容易明确指出具体好在哪些方面。尽管如此,作为另一种定性衡量标准,它仍然非常有趣和令人兴奋,展示了仅仅通过预训练一个更大的模型就能“免费”获得的能力提升。
请记住,GPT-4.5只进行了预训练、监督微调和RLHF(人类反馈强化学习)训练,因此它还不是一个推理模型。因此,在推理至关重要的领域(如数学、代码等),这个模型的发布并没有推动模型能力的提升。在这些情况下,通过强化学习进行训练并获得思考能力非常重要,效果也更好,即使是在一个较旧的基础模型(例如GPT-4级别的能力)上进行训练。目前的最先进技术仍然是完整的o1。可以推测,OpenAI现在将寻求在GPT-4.5模型的基础上进一步进行强化学习训练,使其能够思考,并推动这些领域的模型能力。
然而,我们确实期望在那些不依赖推理的任务中看到改进,我会说这些任务更多与情商(而非智商)相关,并且受限于世界知识、创造力、类比能力、一般理解力、幽默感等。因此,这些任务是我在“感觉检查”中最感兴趣的。
Box CEO Aaron Levie测评:使用 GPT-4.5 来帮助从复杂的企业内容中提取结构化数据和元数据。
GPT-4.5,算力增十倍,训得更通人性
人工智能的突破接踵而至。OpenAI刚刚发布了GPT-4.5,我们将在今天晚些时候通过Box AI Studio向Box客户提供这一新模型。
我们已经在Box AI的早期访问模式下测试了GPT-4.5,针对高级企业非结构化数据用例进行了评估,并取得了显著成果。通过Box AI企业评估,我们测试了模型在各种不同场景下的表现,如问答准确性、推理能力等。特别是为了探索GPT-4.5的能力,我们专注于一个对企业具有重大潜在影响的关键领域:从复杂的企业内容中提取结构化数据或元数据。
在Box,我们使用多个企业级数据集严格评估数据提取模型。其中一个关键数据集是CUAD,它包含超过510份商业法律合同。在该数据集中,Box识别了17,000个可以从非结构化内容中提取的字段,并基于对这些字段的单次提取(这是我们最难的测试,模型只有一次机会一次性提取所有元数据,而不是多次尝试)评估了模型的表现。在我们的测试中,GPT-4.5比GPT-4o准确提取的字段多出19个百分点,突显了其处理复杂合同数据的能力提升。
接下来,为了确保GPT-4.5能够应对现实世界企业内容的需求,我们针对一组更严格的文档——Box自己的挑战集——评估了其表现。我们选择了一组复杂的法律合同子集,这些合同包含多模态内容、高密度信息且长度超过200页,代表了客户面临的一些最困难场景。在这个挑战集上,GPT-4.5在提取关键字段时的准确性也始终优于GPT-4o,展示了其处理复杂且微妙的法律文档的卓越能力。
总体而言,我们看到GPT-4.5在复杂企业数据方面表现强劲,这将为企业解锁更多用例。
不过,在这个DeepSeek的开源周里,GPT-4.5仍然守口如瓶,引发了AI研究者的吐槽:
GPT-4.5,算力增十倍,训得更通人性
GPT2和GPT3是技术报告的美好旧时光。
GPT3.5至少还有InstructGPT报告。
GPT4则有更强大、更复杂的MoE(混合专家模型)传闻。
有人知道GPT4.5有什么新东西吗?
大语言模型的诅咒者Gary Marcus,不出所料地又跳出来喷:我早就说过,Scaling Law (扩展定律)根不是物理定律。 GPT-4.5,算力增十倍,训得更通人性