GPT-5.6突袭发布：性能登顶却自我设限，OpenAI最谨慎的一次升级

北京时间6月27日凌晨，OpenAI正式发布GPT-5.6系列模型。与以往高调全量开放不同，此次发布以“有限预览”形式先行试水，三款模型分别命名为Sol（太阳）、Terra（地球）和Luna（月亮），对应不同能力层级。作为OpenAI迄今最强一代，GPT-5.6在基准测试中全面霸榜。旗舰模型Sol在Terminal-Bench 2.1上得分88.8%，其Ultra模式更达91.9%，远超GPT-5.5的88.0%及Claude Mythos 5的84.3%。这一能力主要集中在编程、生物信息学和网络安全三个方向，这些场景的共同特征是复杂、长链条、强依赖上下文，需要模型持续规划、推理和工具调用。在生物信息学领域，Sol在GeneBench v1上相比GPT-5.5取得更强结果，且输出tokens更少，对科研场景的成本效率意义重大。网络安全方面，Sol在ExploitBench上的表现接近Mythos Preview，但仅使用约三分之一输出tokens。不过，OpenAI强调Sol更擅长发现和修复漏洞，尚未能稳定完成端到端攻击，在Chromium和Firefox评估中未生成可运行完整攻击链，因此判定未跨过网络安全关键风险阈值。值得注意的是，GPT-5.6的发布说明中安全篇幅显著增加。OpenAI为三款模型配置了分层安全栈，包括模型拒答、实时分类器、账号审查和差异化访问，能力越强防护越严。自动化红队测试投入超过70万A100等效GPU小时，重点寻找通用越狱方法。这一谨慎姿态明显是为了避免重蹈此前因安全争议引发的舆论危机。可用性方面，模型先通过API和Codex向可信合作伙伴开放，后续逐步扩展至ChatGPT和更广泛用户。价格体系同步公布，Terra性能与GPT-5.5竞争但价格便宜一半，Luna主打低成本。OpenAI同时梳理了命名体系，数字表示代际，Sol、Terra、Luna对应不同能力层级，便于用户选择。从行业视角看，GPT-5.6的发布标志着AI模型竞争进入新阶段：当能力逼近关键阈值，使用资格与方式比性能本身更受关注。OpenAI在展示强大能力的同时自我设限，反映出前沿模型部署中安全与开放的平衡难题。对于AI导航与资讯平台AI大狗（AIdadog.com）而言，这一事件提示用户关注模型能力边界与使用规范，平台将持续追踪此类动态，帮助用户理性选择和应用AI工具。

GPT-5.6突袭发布：性能登顶却自我设限，OpenAI最谨慎的一次升级配图1

文章来源：https://aidadog.com/news/jy8tgw0ix1qiyibxnkf8v5zp

GPT-5.6突袭发布：性能登顶却自我设限，OpenAI最谨慎的一次升级

算力出海爆发：800G光模块出口暴涨百倍，AI产业链贡献机电出口增量过半

锂价50万山顶囤货血亏三年，大秦储能清完旧账冲刺港股IPO

继续阅读