人工智能 频道

OpenAI推出GPT-5.2,与谷歌Gemini 3角逐AI模型主导地位

  人工智能巨头宣称,新版本性能“达到或超越人类专家水平”。

  OpenAI发布了GPT-5.2,相比去年11月推出的GPT-5.1,新版AI模型完成实际商业任务的能力显著提升。

  该公司表示,新模型提供即时、思维与专业三个性能层级,在一系列基准测试中均取得重大改进。

  根据OpenAI的GDPval基准(该基准将模型完成44项不同商业任务的能力与人类专家依据相同标准进行比较),GPT-5.2在70.9%的测试中达到或超过了人类用户表现,而GPT-5.1在即时(基础)、思维(深度推理)和专业(研究级)版本中的对应数据为38.8%。

  为说明进展,OpenAI举例称,GPT-5.2思维版能完整格式化劳动力规划电子表格,而GPT-5.1的等效输出虽然正确组装了相同表格,但处于缺乏格式的基础状态。

  OpenAI表示:“我们设计GPT-5.2旨在为人们释放更多经济价值;它更擅长创建电子表格、构建演示文稿、编写代码、理解图像、解析长文本、使用工具以及处理复杂的多步骤项目。”

  GPT-5.2在其他重要基准上也显示出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用问题解决)和SWE-Bench Pro/SWE-Bench Verified(实际软件任务)。

  该公司称:“对于日常专业使用,这意味着模型能更可靠地调试生产代码、实现功能需求、重构大型代码库,并以更少人工干预端到端地完成修复。”

  GPT-5.2已开始向ChatGPT用户推送,首先面向付费计划用户。订阅价格保持不变。对于API访问,GPT-5.2定价为每100万输入令牌1.75美元,每100万输出令牌14美元,缓存输入可享受90%折扣。尽管价格高于GPT-5.1,但OpenAI声称模型效率更高,意味着“由于GPT-5.2的令牌效率提升,实现特定质量水平的最终成本反而更低。”

  对OpenAI而言,新版紧随上一版本发布,标志着其GPT-5模型开发显著加速。12月初,首席执行官Sam Altman曾向员工发送“红色警报”紧急备忘录,警告称若不加快GPT-5开发,公司恐将落后于谷歌日益强大的Gemini 3模型。

  此后情况似乎趋于平稳,Altman本周告诉CNBC,Gemini的进步并未如最初担忧的那样重大,红色警报状态将于1月解除。然而,网络公告中明显缺少GPT-5.2与Gemini 3的性能直接比较。据报道,一次单独的新闻发布会仅提供了有限对比。

  西门子首席人工智能分析师Maria Sukhareva对OpenAI使用基准的方式提出普遍性质疑。“它(GPT-5.2)声称在GDPval上胜出,但这是OpenAI为OpenAI开发的基准。从技术上讲,OpenAI完全可以针对这44项任务对模型进行微调,而在其他方面表现不佳。”她指出。

  “本质上,GPT-5.2报告的数字意义有限,人们无法看到其训练数据。GPT-5.2存在与之前型号相同的问题。”她辩称。Sukhareva对GPT-5.2基准测试的更深入分析可在其Substack博客上查看。

  电子商务平台Sell The Trend的首席执行官Rachid 'Rush' Wehbi在真实场景下测试了GPT-5.2。“GPT-5.2在长时间保持思路连贯方面表现更好,面对多层次上下文时不会崩溃。这对企业来说,比在某些可能无关紧要的基准上取得小幅改进重要得多。”他表示。

  “基准测试可以表明你取得了某种进步,但无法告诉你模型是否真的能在现实世界中站得住脚。GPT-5.2是向前一步,但企业级AI仍在发展过程中。”

  据人工智能素养公司Human Voice Media创始人Bob Hutchins所说,“迄今为止,大多数企业对AI的挫败感来自最后20%——格式、约束、交接。GPT-5.2在这些方面显示出进展。”他对企业的建议是,“忽略发布宣传,进行有纪律的试验。GPT-5.2是一个有意义的进步。它并未彻底弥合承诺与实践之间的差距,但确实缩小了差距。”

  例如,AI代理公司Vectara的幻觉评估模型基准测试发现,尽管GPT-5.2在这方面有所改进,但仍落后于部分竞争对手。

  Vectara开发者关系主管Ofer Mendelevitch评论道:“OpenAI在提升抗幻觉性能方面仍有长路要走。”“目前,GPT-5.2-low-thinking是GPT系列中表现最好的,在我们的榜单上排名第33位,幻觉率为8.4%。然而,ChatGPT 5.2明显落后于DeepSeek V3.2,后者以6.3%的幻觉率排名第23位。作为对比,我们测试中Gemini 3的幻觉率为13.6%,Grok 4.1为17.8%。”

0
相关文章