5月9日,蚂蚁百灵正式发布Ring-2.6-1T,一款面向Agent、Coding与企业工作流等真实复杂任务场景的万亿级旗舰思考模型,主打可调节“思考深度”,兼顾复杂任务与执行成本。目前,Ring-2.6-1T已上线OpenRouter,并开放限时一周免费体验,后续该模型也将于近期正式开源。
当前,在真实生产环境中,行业对“推理能力”的需求正在发生变化:并非所有任务都需要同等级别的思考深度。一次简单的格式转换,与一道复杂数学竞赛题,对推理资源的要求截然不同。
Ring-2.6-1T的一大亮点是引入可调节的Reasoning Effort机制,支持high与xhigh两种推理强度,让开发者能够根据任务复杂度灵活控制模型思考深度,在效果、速度与成本之间实现更优平衡。其中:
·high模式面向高频Agent工作流,具备更低Token开销与更快多步执行能力,适合多轮交互、工具协作、任务拆解和生产级默认调用;
·xhigh模式面向数学、科研、复杂逻辑分析与多路径探索等高难任务,为复杂推理提供更充分的思考空间。
在各类评测中,Ring-2.6-1T的两种模式均表现优异。
在真实任务执行类评测中,Ring-2.6-1T high表现亮眼:PinchBench得分87.60,显著高于GPT-5.4 xHigh、Gemini-3.1-Pro high与Claude-Opus-4.7 xhigh;ClawEval得分63.82,位列可比模型前列;Tau2-Bench Telecom达到95.32,与最高分模型差距不足1分,展现出在复杂业务流程、工具协作与行业任务中的稳定执行能力。
在高难推理任务上,Ring-2.6-1T xhigh则展现出更高能力上限:ARC-AGI-V2得分77.78,与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh处于同一水位;AIME 26得分95.83,接近多家头部模型水平;GPQA Diamond达到88.27,体现出稳健的科学知识理解与复杂推理能力。
总体来看,Ring-2.6-1T希望解决的不只是“模型是否足够聪明”,更是“模型能否以合理推理成本,在真实复杂工作流中稳定、高效地完成任务”。