GPT-4.5来了，价格是DeepSeek的130倍，奥特曼哪来的自信？

出品 | 搜狐科技

作者 | 梁昌均

山姆·奥特曼此前预告的GPT-4.5来了！

2月28日凌晨，OpenAI发布了最新模型GPT-4.5预览版。不过，在这个重要场合，刚喜得一子的奥特曼并未现身。

“对我来说，GPT-4.5是第一个让我感觉像是在和一个有思想的人对话的模型。有好几次，我惊讶于能从AI那里得到真正有用的建议。”奥特曼发文表示。

他还特意强调，这不是一个推理模型，不会在基准测试中表现得特别突出，是一种不同类型的智能。

“GPT-4.5是一个特殊的模型。它是我们迄今为止最大、知识最渊博的模型。”OpenAI研究负责人米娅·格莱瑟在直播发布中提到。

GPT-4.5来了，价格是DeepSeek的130倍，奥特曼哪来的自信？

据介绍，GPT-4.5采取了扩展两种不同范式来提高AI能力：无监督学习和推理，分别用于提升模型的准确性、减少幻觉，以及加强模型在响应之前思考的能力，从而满足需要推理的任务（如科学、数学和其他复杂问题）。

展开全文

OpenAI表示，GPT-4.5交互自然，是目前最好的聊天模型，具有改进的知识和上下文理解，适用于写作、编程和问题解决。在演示中，研究员还将GPT-4.5与o1的回答进行了比较，认为o1有用，但GPT-4.5的答案流程更加自然。

在QA评估中，GPT-4.5在准确性方面优于其他GPT系列，且幻觉率最低。同时，为了让对话更具情感，OpenAI还与GPT-4o 进行比较，GPT-4.5在几乎每个类别上都表现更好。

OpenAI还在一个新的 Vibes 测试集上进行了测试，主要测试模型的EQ（情商）。据介绍，GPT-4.5通过一系列技术创新和训练方法为模型增加了“情商”功能，让它能够通过用户的文字输入，捕捉到情感色彩，判断用户的情绪状态，从而能够以一种富有同理心、温暖关怀的方式回应用户需求。

比如，OpenAI演示显示，在用户表达“朋友又取消了我的约会，想发消息骂他”的负面情绪时，GPT-4.5展现出了对用户的理解能力，不仅给出了更温和的建议，还读懂了用户的真实需求，可能是想要需要倾诉和安慰，而不是真的想和朋友闹翻，可以说非常懂人心了！对比来看，o1则直接按照指令输出了愤怒的骂人信息。

GPT-4.5来了，价格是DeepSeek的130倍，奥特曼哪来的自信？

在训练层面，OpenAI也进行了改进。OpenAI表示，GPT-4.5是其迄今为止最大的模型，参数规模达到了前所未有的高度，但其并未透露具体规模。

因此预训练阶段，OpenAI希望尽可能多地将计算能力投入到模型中，比如使用低精度训练来充分利用GPU，在高带宽网络结构上获得的更多的计算能力，为此同时在多个数据中心进行了预训练。

在后训练阶段，OpenAI开发了一种新的训练机制，通过多次迭代，使用监督微调和人类反馈的强化学习相结合的方式，对该模型进行了后训练，使得模型能力不断进化。

此外，随着扩大模型的规模，OpenAI面向GPT-4.5开发了新的可扩展对齐技术，从而能够使用来自较小模型的数据对其进行训练，拓展了模型更深层次的能力。

得益于这些方面的优化，与GPT-4o相比，GPT-4.5在传统的LLM基准测试中取得了明显进步。在GBQA（数学等推理任务评估）、AME（数学竞赛评估）、SWE-Bench Verified（编码评估），以及MMMLU（多语言理解）和MMMU（多模态理解）等主流评测基准上，GPT-4.5均超过GPT-4o，成为目前最强大的GPT模型。

GPT-4.5来了，价格是DeepSeek的130倍，奥特曼哪来的自信？

不过，前述多个测试，它仍然落后于深度推理模型o3 Mini，仅在MMMLU和SWE-Lancer（世界知识的编码评估）测试上优于o3 Mini，显示了无监督学习与推理规模扩展的互补性。

从今天开始，OpenAI将在网页、移动端和桌面端向ChatGPT所有Pro用户发布GPT-4.5，后续将陆续向团队和Plus用户，以及教育版和企业版发布，从而与聊天功能无缝集成，包括文件和图像上传、画布和搜索。

无法同时向所有用户推送的原因是算力不够用了。奥特曼表示，GPT-4.5是一个大型且成本高昂的模型，很想同时向Plus和Pro用户推出，但业务增长迅猛，GPU已经不够用了。

“下周我们会增加数万个 GPU，很快还会有数十万个 GPU 到位。我们也不想这样，但要精准预测GPU增长高峰实在太难了。”奥特曼说。

同时，OpenAI会向所有付费级别的开发者发布GPT-4.5，支持函数调用、结构化输出等功能。这也是OpenAI有史以来最贵的模型，API价格为每百万Token输入75美元，每百万输出150美元，价格贵的离谱。

对比来看，同等Token规模下，GPT-4o输入输出分别仅需2.5/10美元，Claude-3.7 Sonnet分别为3美元和15美元；DeepSeek-V3输出是8元，DeepSeek-R1输出则是16元（标准时段）。这意味着，GPT-4.5的API输出价格是DeepSeek-V3的130多倍，是DeepSeek-R1的70倍。

“我们认为推理将是我们未来模型的核心能力，无监督学习和推理是互补的。像GPT 4.5这样拥有更多世界知识并且本质上更智能的模型，将是未来推理模型和代理更强大的基础。”米娅认为，随着计算和无监督学习的每一次数量级的增长，都会发现新的能力，而GPT-4.5处于无监督学习的前沿。

这款模型发布后，也在社交媒体引发关注。OpenAI前科学家、AI大神Andrej Karpathy拿到了内测资格，他透露GPT-4.5预训练算力相比GPT-4提升了10倍。

同时，他也强调到，GPT-4.5不是推理模型，在不依赖重度推理的任务中，仍然可以期待 GPT-4.5的进步。这些任务更多与情商相关，并且存在世界知识、创造力、类比能力、理解能力和幽默感等方面的瓶颈。国内有用户测试后认为，这款模型性能、速度等方面并不突出，尤其价格更是普遍遭到吐槽。

此前，奥特曼表示，GPT-4.5将是OpenAI最后一个非思维链（CoT）模型。未来几个月，将会发布融合推理的系统大模型GPT-5，而o3不会作为独立模型发布。

不过，此前Anthropic此前已经发布融合推理模型的Claude-3.7。OpenAI又被抢先，未来能否维持AI领先地位，可能就要看GPT-5了。