OpenAI推出GPT-5.2，与谷歌Gemini 3角逐AI模型主导地位-人工智能专区

OpenAI推出GPT-5.2，与谷歌Gemini 3角逐AI模型主导地位

作者：卢敏编辑：卢敏 2025-12-15 18:06 IT168网站原创

　　人工智能巨头宣称，新版本性能“达到或超越人类专家水平”。

　　OpenAI发布了GPT-5.2，相比去年11月推出的GPT-5.1，新版AI模型完成实际商业任务的能力显著提升。

　　该公司表示，新模型提供即时、思维与专业三个性能层级，在一系列基准测试中均取得重大改进。

　　根据OpenAI的GDPval基准（该基准将模型完成44项不同商业任务的能力与人类专家依据相同标准进行比较），GPT-5.2在70.9%的测试中达到或超过了人类用户表现，而GPT-5.1在即时（基础）、思维（深度推理）和专业（研究级）版本中的对应数据为38.8%。

　　为说明进展，OpenAI举例称，GPT-5.2思维版能完整格式化劳动力规划电子表格，而GPT-5.1的等效输出虽然正确组装了相同表格，但处于缺乏格式的基础状态。

　　OpenAI表示：“我们设计GPT-5.2旨在为人们释放更多经济价值；它更擅长创建电子表格、构建演示文稿、编写代码、理解图像、解析长文本、使用工具以及处理复杂的多步骤项目。”

　　GPT-5.2在其他重要基准上也显示出不同程度的提升，包括ARC-AGI-1/ARC-AGI-2（通用问题解决）和SWE-Bench Pro/SWE-Bench Verified（实际软件任务）。

　　该公司称：“对于日常专业使用，这意味着模型能更可靠地调试生产代码、实现功能需求、重构大型代码库，并以更少人工干预端到端地完成修复。”

　　GPT-5.2已开始向ChatGPT用户推送，首先面向付费计划用户。订阅价格保持不变。对于API访问，GPT-5.2定价为每100万输入令牌1.75美元，每100万输出令牌14美元，缓存输入可享受90%折扣。尽管价格高于GPT-5.1，但OpenAI声称模型效率更高，意味着“由于GPT-5.2的令牌效率提升，实现特定质量水平的最终成本反而更低。”

　　对OpenAI而言，新版紧随上一版本发布，标志着其GPT-5模型开发显著加速。12月初，首席执行官Sam Altman曾向员工发送“红色警报”紧急备忘录，警告称若不加快GPT-5开发，公司恐将落后于谷歌日益强大的Gemini 3模型。

　　此后情况似乎趋于平稳，Altman本周告诉CNBC，Gemini的进步并未如最初担忧的那样重大，红色警报状态将于1月解除。然而，网络公告中明显缺少GPT-5.2与Gemini 3的性能直接比较。据报道，一次单独的新闻发布会仅提供了有限对比。

　　西门子首席人工智能分析师Maria Sukhareva对OpenAI使用基准的方式提出普遍性质疑。“它（GPT-5.2）声称在GDPval上胜出，但这是OpenAI为OpenAI开发的基准。从技术上讲，OpenAI完全可以针对这44项任务对模型进行微调，而在其他方面表现不佳。”她指出。

　　“本质上，GPT-5.2报告的数字意义有限，人们无法看到其训练数据。GPT-5.2存在与之前型号相同的问题。”她辩称。Sukhareva对GPT-5.2基准测试的更深入分析可在其Substack博客上查看。

　　电子商务平台Sell The Trend的首席执行官Rachid 'Rush' Wehbi在真实场景下测试了GPT-5.2。“GPT-5.2在长时间保持思路连贯方面表现更好，面对多层次上下文时不会崩溃。这对企业来说，比在某些可能无关紧要的基准上取得小幅改进重要得多。”他表示。

　　“基准测试可以表明你取得了某种进步，但无法告诉你模型是否真的能在现实世界中站得住脚。GPT-5.2是向前一步，但企业级AI仍在发展过程中。”

　　据人工智能素养公司Human Voice Media创始人Bob Hutchins所说，“迄今为止，大多数企业对AI的挫败感来自最后20%——格式、约束、交接。GPT-5.2在这些方面显示出进展。”他对企业的建议是，“忽略发布宣传，进行有纪律的试验。GPT-5.2是一个有意义的进步。它并未彻底弥合承诺与实践之间的差距，但确实缩小了差距。”

　　例如，AI代理公司Vectara的幻觉评估模型基准测试发现，尽管GPT-5.2在这方面有所改进，但仍落后于部分竞争对手。

　　Vectara开发者关系主管Ofer Mendelevitch评论道：“OpenAI在提升抗幻觉性能方面仍有长路要走。”“目前，GPT-5.2-low-thinking是GPT系列中表现最好的，在我们的榜单上排名第33位，幻觉率为8.4%。然而，ChatGPT 5.2明显落后于DeepSeek V3.2，后者以6.3%的幻觉率排名第23位。作为对比，我们测试中Gemini 3的幻觉率为13.6%，Grok 4.1为17.8%。”

关注我们