出品 | 搜狐科技
作者 | 梁昌均
山姆·奥特曼此前预告的GPT-4.5来了!
2月28日凌晨,OpenAI发布了最新模型GPT-4.5预览版。不过,在这个重要场合,刚喜得一子的奥特曼并未现身。
“对我来说,GPT-4.5是第一个让我感觉像是在和一个有思想的人对话的模型。有好几次,我惊讶于能从AI那里得到真正有用的建议。”奥特曼发文表示。
他还特意强调,这不是一个推理模型,不会在基准测试中表现得特别突出,是一种不同类型的智能。
“GPT-4.5是一个特殊的模型。它是我们迄今为止最大、知识最渊博的模型。”OpenAI研究负责人米娅·格莱瑟在直播发布中提到。
据介绍,GPT-4.5采取了扩展两种不同范式来提高AI能力:无监督学习和推理,分别用于提升模型的准确性、减少幻觉,以及加强模型在响应之前思考的能力,从而满足需要推理的任务(如科学、数学和其他复杂问题)。
OpenAI表示,GPT-4.5交互自然,是目前最好的聊天模型,具有改进的知识和上下文理解,适用于写作、编程和问题解决。在演示中,研究员还将GPT-4.5与o1的回答进行了比较,认为o1有用,但GPT-4.5的答案流程更加自然。
在QA评估中,GPT-4.5在准确性方面优于其他GPT系列,且幻觉率最低。同时,为了让对话更具情感,OpenAI还与GPT-4o 进行比较,GPT-4.5在几乎每个类别上都表现更好。
OpenAI还在一个新的 Vibes 测试集上进行了测试,主要测试模型的EQ(情商)。据介绍,GPT-4.5通过一系列技术创新和训练方法为模型增加了“情商”功能,让它能够通过用户的文字输入,捕捉到情感色彩,判断用户的情绪状态,从而能够以一种富有同理心、温暖关怀的方式回应用户需求。
比如,OpenAI演示显示,在用户表达“朋友又取消了我的约会,想发消息骂他”的负面情绪时,GPT-4.5展现出了对用户的理解能力,不仅给出了更温和的建议,还读懂了用户的真实需求,可能是想要需要倾诉和安慰,而不是真的想和朋友闹翻,可以说非常懂人心了!对比来看,o1则直接按照指令输出了愤怒的骂人信息。
在训练层面,OpenAI也进行了改进。OpenAI表示,GPT-4.5是其迄今为止最大的模型,参数规模达到了前所未有的高度,但其并未透露具体规模。
因此预训练阶段,OpenAI希望尽可能多地将计算能力投入到模型中,比如使用低精度训练来充分利用GPU,在高带宽网络结构上获得的更多的计算能力,为此同时在多个数据中心进行了预训练。
在后训练阶段,OpenAI开发了一种新的训练机制,通过多次迭代,使用监督微调和人类反馈的强化学习相结合的方式,对该模型进行了后训练,使得模型能力不断进化。
此外,随着扩大模型的规模,OpenAI面向GPT-4.5开发了新的可扩展对齐技术,从而能够使用来自较小模型的数据对其进行训练,拓展了模型更深层次的能力。
得益于这些方面的优化,与GPT-4o相比,GPT-4.5在传统的LLM基准测试中取得了明显进步。在GBQA(数学等推理任务评估)、AME(数学竞赛评估)、SWE-Bench Verified(编码评估),以及MMMLU(多语言理解)和MMMU(多模态理解)等主流评测基准上,GPT-4.5均超过GPT-4o,成为目前最强大的GPT模型。
不过,前述多个测试,它仍然落后于深度推理模型o3 Mini,仅在MMMLU和SWE-Lancer(世界知识的编码评估)测试上优于o3 Mini,显示了无监督学习与推理规模扩展的互补性。
从今天开始,OpenAI将在网页、移动端和桌面端向ChatGPT所有Pro用户发布GPT-4.5,后续将陆续向团队和Plus用户,以及教育版和企业版发布,从而与聊天功能无缝集成,包括文件和图像上传、画布和搜索。
无法同时向所有用户推送的原因是算力不够用了。奥特曼表示,GPT-4.5是一个大型且成本高昂的模型,很想同时向Plus和Pro用户推出,但业务增长迅猛,GPU已经不够用了。
“下周我们会增加数万个 GPU,很快还会有数十万个 GPU 到位。我们也不想这样,但要精准预测GPU增长高峰实在太难了。”奥特曼说。
同时,OpenAI会向所有付费级别的开发者发布GPT-4.5,支持函数调用、结构化输出等功能。这也是OpenAI有史以来最贵的模型,API价格为每百万Token输入75美元,每百万输出150美元,价格贵的离谱。
对比来看,同等Token规模下,GPT-4o输入输出分别仅需2.5/10美元,Claude-3.7 Sonnet分别为3美元和15美元;DeepSeek-V3输出是8元,DeepSeek-R1输出则是16元(标准时段)。这意味着,GPT-4.5的API输出价格是DeepSeek-V3的130多倍,是DeepSeek-R1的70倍。
“我们认为推理将是我们未来模型的核心能力,无监督学习和推理是互补的。像GPT 4.5这样拥有更多世界知识并且本质上更智能的模型,将是未来推理模型和代理更强大的基础。”米娅认为,随着计算和无监督学习的每一次数量级的增长,都会发现新的能力,而GPT-4.5处于无监督学习的前沿。
这款模型发布后,也在社交媒体引发关注。OpenAI前科学家、AI大神Andrej Karpathy拿到了内测资格,他透露GPT-4.5预训练算力相比GPT-4提升了10倍。
同时,他也强调到,GPT-4.5不是推理模型,在不依赖重度推理的任务中,仍然可以期待 GPT-4.5的进步。这些任务更多与情商相关,并且存在世界知识、创造力、类比能力、理解能力和幽默感等方面的瓶颈。国内有用户测试后认为,这款模型性能、速度等方面并不突出,尤其价格更是普遍遭到吐槽。
此前,奥特曼表示,GPT-4.5将是OpenAI最后一个非思维链(CoT)模型。未来几个月,将会发布融合推理的系统大模型GPT-5,而o3不会作为独立模型发布。
不过,此前Anthropic此前已经发布融合推理模型的Claude-3.7。OpenAI又被抢先,未来能否维持AI领先地位,可能就要看GPT-5了。