北京时间2026年2月5日,OpenAI正式推出了GPT-5.3-Codex,这是目前最先进的智能编码模型。该模型结合了GPT-5.2-Codex的前沿编码性能和GPT-5.2的推理与专业知识能力,在多项基准测试中创下新高。
与以往不同的是,GPT-5.3-Codex成为OpenAI首个在自身开发过程中发挥关键作用的模型。开发团队使用早期版本来调试训练过程、管理部署并诊断测试结果,显著加速了其自身的开发进程。

01 多项性能突破:基准测试表现卓越
GPT-5.3-Codex在多项专业基准测试中展现出色表现。在SWE-Bench Pro上,这一模型实现了56.8%的准确率,超越了前代产品的56.4%。
SWE-Bench Pro作为现实世界软件工程的严格评估标准,与仅测试Python的SWE-bench Verified不同,它涵盖四种编程语言,更具挑战性和行业相关性。
在Terminal-Bench 2.0测试中,GPT-5.3-Codex的表现尤为突出,达到了77.3%的准确率,显著超过GPT-5.2-Codex的64.0%和GPT-5.2的62.2%。
更值得关注的是,该模型以更少的令牌数量实现这些结果,为用户提供了更高的效率。在OSWorld-Verified测试中,GPT-5.3-Codex的得分达到64.7%,远高于前代的38.2%,越来越接近人类约72%的平均水平。
02 网络开发能力:从游戏到商业应用的质变
OpenAI通过实际项目测试了GPT-5.3-Codex的网络开发和长期自主任务执行能力。研究团队要求模型构建两款游戏:赛车游戏的第二代版本和一款潜水探险游戏。
利用“开发网页游戏”技能和预选的通用后续提示(如“修复错误”或“改进游戏”),GPT-5.3-Codex自主迭代了数百万个令牌,不断完善游戏体验。
赛车游戏最终包含不同的赛车角色、八张地图甚至还有可使用空格键操作的道具系统。潜水游戏则允许玩家探索各种珊瑚礁,通过收集完成鱼类图鉴,同时管理氧气、压力和危险因素。
在日常网站建设方面,GPT-5.3-Codex能更好地理解用户意图。简单或不够详细的提示现在默认生成具有更多功能和合理默认设置的网站,为用户提供更强的起点。
03 超越代码编写:全方位专业工作支持
现代软件工程师、设计师、产品经理和数据科学家的职责远不止生成代码。GPT-5.3-Codex支持软件生命周期中的所有工作,包括调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试和指标分析等。
在GDPval评估中,GPT-5.3-Codex表现出强大的专业知识工作能力,与GPT-5.2持平。GDPval是OpenAI于2025年发布的评估标准,衡量模型在44个职业中的知识工作任务表现。
这些任务包括制作演示文稿、电子表格和其他工作产品。无论是财务建议幻灯片、零售培训文档、NPV分析电子表格还是时尚演示PDF,GPT-5.3-Codex都能生成专业级成果。
04 交互协作体验:实时指导与反馈机制
随着模型能力变得更加强大,关键差距从代理能做什么转向人类如何轻松地与多个并行工作的代理进行交互、指导和管理。
Codex应用程序使管理和指导代理变得更加容易,而GPT-5.3-Codex则提供了更强的交互性。新模型会频繁提供更新,让用户在关键决策和进度方面保持知情。
用户可以在实时交互中提出问题、讨论方法并引导解决方案,而无需等待最终输出。GPT-5.3-Codex会详细说明其工作内容,响应反馈,并让用户从开始到结束都保持参与感。
05 网络安全防护:先行预防与防御优先
GPT-5.3-Codex是首个被归类为具备网络安全高能力的模型,也是OpenAI首个直接训练用于识别软件漏洞的模型。
尽管没有明确证据表明它可以端到端地自动化网络攻击,但OpenAI采取了预防性方法,部署了迄今为止最全面的网络安全安全堆栈。
缓解措施包括安全培训、自动监控、高级功能的可信访问以及包含威胁情报的强制执行管道。
由于网络安全具有固有的双重用途性质,OpenAI采取了基于证据的迭代方法,加速防御者发现和修复漏洞的能力,同时减缓滥用行为。
作为这一计划的一部分,OpenAI推出了“网络安全可信访问”试点项目,旨在加速网络安全防御研究。该公司还承诺提供1000万美元的API积分,以加速使用其最先进模型进行网络防御,特别是针对开源软件和关键基础设施系统。
关联资讯:AI编程工具竞争白热化
随着AI编程助手领域的竞争加剧,各大科技公司都在这一领域持续发力。谷歌的Project IDX和GitHub的Copilot Workspace等产品都在不断迭代,试图在智能代码生成市场占据一席之地。
行业分析师指出,AI编程工具正从简单的代码补全向全流程开发助手演变。这一转变可能在未来几年内重塑软件工程行业的工作方式,使更多非专业开发者能够参与复杂项目的创建过程。
GPT-5.3-Codex最引人深思的突破在于其在自身开发中发挥的作用。当AI能够加速自身进化过程,我们可能正接近一个技术发展的转折点。
这不仅关乎效率提升,更预示着AI开发范式的根本变革。随着模型能够参与自身优化,技术进步的速度可能会呈现非线性增长。
然而,这种自我指涉能力也带来了新的安全考量,需要更强大的安全保障和伦理框架。