太长,懒得读 (要点总结)
- OpenAI 推出轻量、廉价的 GPT-4o Mini 模型。
- GPT-4o Mini 比 GPT-3.5 更强大,且成本更低。
- Free、Plus 和 Team 计划用户今日起可用,企业用户下周起可用。
- GPT-3.5 将逐步从 API 下架。
- GPT-4o Mini 支持多模态输入输出,包括文本、视觉、视频和音频。
- 新模型在 MMLU 基准测试中得分 82%,优于 GPT-3.5。
- 开发者已开始用 GPT-4o Mini 构建应用,如提取收据数据和自动回复功能。
- 目标是让 AI 更加经济实惠,惠及更多人。
OpenAI 正在推出更便宜、更智能的模型
来源:The Verge
OpenAI 推出了名为 GPT-4o Mini 的轻量版模型,专为开发者设计。它的成本明显低于全尺寸模型,但性能比 GPT-3.5 更强大。
费用问题
使用 OpenAI 的模型构建应用程序可能会很贵。无法承担高额费用的开发者可能会选择 Google 的 Gemini 1.5 Flash 或 Anthropic 的 Claude 3 Haiku 这样的便宜模型。现在,OpenAI 也加入了轻量模型市场的竞争。
使命
「我认为 GPT-4o Mini 体现了 OpenAI 让 AI 普及的使命。如果我们希望 AI 惠及全球各地、各行各业和各种应用,就必须让 AI 更加负担得起,」API 平台产品负责人 Olivier Godement 在接受《The Verge》采访时表示。
上线时间
从今天开始,Free、Plus 和 Team 计划的 ChatGPT 用户可以使用 GPT-4o Mini 代替 GPT-3.5 Turbo。企业用户将在下周获得访问权限。这意味着 ChatGPT 用户将无法再选择 GPT-3.5,但开发者如果不想切换到 GPT-4o Mini 仍可通过 API 使用 GPT-3.5。Godement 表示,GPT-3.5 将在某个时候从 API 中退休,但具体时间尚未确定。
功能与应用
新的轻量模型支持 API 中的文本和视觉功能,公司表示它很快将处理所有多模态输入和输出,如视频和音频。凭借这些功能,它看起来像是一个更强大的虚拟助手,可以理解旅行行程并提出建议。不过,这个模型主要用来处理简单任务,因此不会用来廉价地构建 Siri。
性能评估
这个新模型在大规模多任务语言理解(MMLU)测试中取得了 82% 的成绩。MMLU 是一项由约 16,000 个多选题组成的基准考试,涵盖 57 个学术科目。2020 年 MMLU 首次推出时,大多数模型在其上的表现都很糟糕,因为这些模型在之前的基准考试中已经变得过于强大。GPT-3.5 在这项测试中得了 70%,GPT-4o 得了 88.7%,而 Google 声称 Gemini Ultra 创下了 90% 的历史最高分。相比之下,竞争模型 Claude 3 Haiku 和 Gemini 1.5 Flash 分别得了 75.2% 和 78.9%。
测试问题
研究人员对 MMLU 这样的基准测试持谨慎态度,因为它的实施方式因公司而异。《纽约时报》报道,这使得不同模型的分数难以比较。此外,AI 可能在其数据集中已经包含这些答案,这实际上让它可以作弊,并且通常没有第三方评估人员参与。
开发者工具
对于渴望低成本构建 AI 应用程序的开发者来说,GPT-4o Mini 是一个新的选择。OpenAI 让金融科技初创公司 Ramp 测试了该模型,使用 GPT-4o Mini 构建了一个提取收据费用数据的工具。用户可以上传收据图片,而不是在文本框中输入,模型会为他们分类。电子邮件客户端 Superhuman 也测试了 GPT-4o Mini,用它创建了自动回复建议功能。
目标
目标是为开发者提供一个轻量且廉价的工具,让他们能够创建无法负担更大、更贵模型的应用程序和工具。许多开发者会在支付高昂计算成本之前转向 Claude 3 Haiku 或 Gemini 1.5 Flash 这样的模型。
推出延迟
那么,OpenAI 为什么花了这么长时间才推出呢?Godement 说这是「纯粹的优先事项」,因为公司专注于创建更大更好的模型,如 GPT-4,这需要大量的「人力和计算资源」。随着时间的推移,OpenAI 注意到开发者渴望使用更小的模型,所以公司决定现在是投入资源构建 GPT-4o Mini 的时候了。
前景
我认为它会非常受欢迎,既有使用 OpenAI 所有 AI 的现有应用,也有许多之前被定价阻挡的应用。
– Godement 评价道。