用你AI 用你AI
首页 AI资讯
用你AI 用你AI
全部
AI编程工具
AI聊天助手
AI浏览器
AI图像工具
AI Agent 智能体
AI音乐音频
AI漫剧短剧
首页 AI资讯

OpenAI发布GPT-5.4:AI智能体时代正式降临

okynai 2026-03-06 09:39 193 阅读 AI资讯

2026年3月5日,硅谷的深夜被一则重磅消息打破。OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交平台X上正式宣布,推出新一代旗舰模型GPT-5.4系列。这不仅是参数或基准测试分数的又一次跃升,更是一次能力范式的根本性转变:GPT-5.4首次将原生计算机操作能力、百万级上下文窗口与深度推理思考模式融为一体,标志着人工智能从“对话与内容生成工具”正式迈入能够自主规划并执行复杂任务的“智能体(Agent)”时代。

image.png

此次发布正值OpenAI面临多重压力之际:一方面,其与竞争对手Anthropic在军事合作伦理上的公开决裂引发巨大争议,导致ChatGPT应用在美国市场遭遇大规模卸载;另一方面,在代码生成、长上下文等核心赛道上,Claude、Gemini等对手正步步紧逼。GPT-5.4的推出,无疑是OpenAI用最硬核的技术实力,对市场与舆论的一次强势回应。

OpenAI GPT-5.4核心升级:从“聊天”到“干活”的质变

GPT-5.4系列包含三个版本:面向广大付费用户的GPT-5.4 Thinking(推理版)、通过API和Codex提供的标准版GPT-5.4,以及面向企业级高负载需求的GPT-5.4 Pro。其核心升级围绕“让AI真正完成工作”展开,主要体现在四大维度。

1. 原生计算机操作(Computer Use):AI首次比人类更会用电脑

这是GPT-5.4最引人瞩目的突破。模型能够通过定期截取屏幕画面来理解当前的软件界面状态,并据此生成鼠标点击、键盘输入、窗口切换等指令,自主操作电脑完成跨应用程序的复杂工作流。例如,用户只需下达指令“整理这份销售数据,生成图表并插入PPT第三页,然后邮件发送给市场部”,GPT-5.4便能自动打开Excel处理数据、制作图表、打开PPT定位页面、插入图表,最后通过邮件客户端发送。

在权威的计算机操作基准测试OSWorld-Verified中,GPT-5.4取得了75.0%的任务成功率,首次超越了人类测试者的平均成功率(72.4%),也大幅领先于前代GPT-5.2的47.3%。这意味着在大量标准化桌面任务上,AI的可靠性和效率已经达到甚至超过了普通人类操作员的水平。

2. 百万Token上下文与“透明思考”

GPT-5.4的API版本支持高达100万Token的上下文窗口,这是OpenAI迄今为止提供的最大容量。这使得模型能够一次性处理整本长篇著作、庞大的代码库或多个季度的完整财务报表,为执行需要长期记忆和复杂规划的任务奠定了基础。

与之配套的是全新的“Thinking(思维)”模式。在该模式下,GPT-5.4在生成最终答案前,会先向用户展示其拆解问题、规划步骤的“思考计划”。用户可以在推理过程中实时介入,调整方向或提供额外信息,而无需等待推理结束再重新开始。这种“透明思考”机制不仅提升了复杂任务的可控性,也增强了用户对AI决策过程的理解与信任。

3. 工具搜索(Tool Search)与效率提升

针对开发者构建复杂AI应用时工具调用繁琐、Token消耗巨大的痛点,GPT-5.4引入了“工具搜索”机制。模型无需在提示词中预先加载所有工具定义,而是可以像人类一样,在需要时动态检索和调用相应的工具。官方测试显示,该机制能将工具相关任务的总体Token消耗降低高达47%,同时保持准确性不变。

尽管单Token定价较GPT-5.2有所上涨(输入2.5美元/百万Token,输出15美元/百万Token),但由于模型整体Token效率显著提升,完成相同任务的总成本反而可能降低。

4. 全面强化的专业能力

GPT-5.4继承了GPT-5.3-Codex的顶尖编程能力,并针对专业办公场景进行了深度优化。在知识工作测试GDPval中,其得分达到83%,意味着在44种职业的标准任务中,有83%的场景达到或超过了人类专家的水平。在软件工程基准SWE-Bench Pro和高难度数学推理测试FrontierMath中,GPT-5.4也均刷新了纪录。此外,模型的“幻觉”(事实性错误)率大幅降低,单个陈述错误率比GPT-5.2降低了33%。

OpenAI GPT-5.4发布背景:地缘博弈与用户流失下的技术突围

GPT-5.4的发布,笼罩在OpenAI与美国国防部合作引发的巨大争议阴影之下。就在发布前一周,OpenAI宣布与五角大楼达成协议,允许后者在机密网络中使用其AI模型。此举直接导致其竞争对手Anthropic被美国国防部列为“供应链风险”,并要求联邦机构逐步停止使用其产品。

这一系列事件引发了科技界的强烈反弹。超过900名OpenAI和谷歌员工联署公开信,支持Anthropic坚守伦理底线的立场。市场反应更为直接:SensorTower数据显示,在合作宣布当天,ChatGPT移动应用在美国的日卸载量暴增295%,而通常的日均卸载率仅为9%左右。与此同时,Anthropic的Claude应用下载量激增,一度登顶苹果App Store免费榜。

OpenAI CEO萨姆·奥特曼事后承认,与国防部的协议“仓促且观感不佳”,并正在推动增加条款,明确禁止其AI用于对美国公民的大规模监控。然而,舆论的裂痕已然形成。Anthropic CEO达里奥·阿莫代(Dario Amodei)在内部信中直言,OpenAI的合作是“安全表演”,奥特曼的公开表态是“彻头彻尾的谎言”。

正是在这种用户信任危机和激烈的伦理争议中,GPT-5.4以纯粹技术突破的姿态登场。它被外界解读为OpenAI试图用无可争议的产品力,重新夺回市场注意力和开发者心智的关键之举。

市场竞合:智能体赛道白热化

GPT-5.4的发布,将AI巨头在“智能体”赛道上的竞争推向高潮。其核心能力直接对标了Anthropic Claude早已推出的“Computer Use”功能,并在多项基准测试中实现了反超。在网页浏览(WebArena)、智能体工具使用(Toolathlon)等测试中,GPT-5.4也全面领先于Claude Opus 4.6和Google Gemini 3.1 Pro。

与此同时,OpenAI正积极拓展其在垂直领域的商业落地。此次同步推出了一套面向金融服务专业人士的新工具,能够直接连接FactSet、Third Bridge等金融数据源,并集成到Excel和Google Sheets中,用于创建和检查复杂的财务模型。这被视为与Anthropic争夺高价值企业客户,尤其是华尔街金融机构的明确信号。

在用户基本盘方面,OpenAI披露的数据显示其依然庞大:ChatGPT周活跃用户超过9亿,个人订阅用户超5000万,付费企业用户超900万。但其高达250亿美元的年化营收背后,是巨大的亏损——高盛测算其每1美元收入对应0.69美元亏损,算力成本占总支出超60%。通过GPT-5.4这样更高性能、更高定价的模型推动用户向更高阶套餐迁移,成为其改善财务状况的重要路径。

观察:技术狂飙与伦理困境的双重奏

GPT-5.4的发布,清晰地勾勒出AI行业当前发展的两条主线:一条是技术能力以月为单位狂飙突进,另一条则是商业扩张与伦理底线之间的激烈碰撞。

从技术演进看,GPT-5.4标志着AI智能体(Agent)从概念演示走向规模化实用的临界点。当AI不仅能理解指令、生成内容,还能直接操作软件、执行跨应用工作流时,其对白领工作效率的颠覆将是革命性的。百万级上下文与“透明思考”的结合,使得AI能够处理更宏大、更复杂的项目,从“副驾驶”升级为可以独立负责模块的“协作者”。这必将加速AI在企业核心业务流程中的渗透。

然而,OpenAI在技术高歌猛进的同时,也正陷入自成立以来最严峻的信任危机。与国防部的合作,尽管奥特曼辩称加入了安全条款,但依然动摇了其“致力于造福全人类”的初始形象。当最强大的AI模型开始与世界上最强大的军事机器结合,其潜在风险引发了全球范围内的深切担忧。这种“技术领先”与“品牌污名”之间的悖论,将是OpenAI未来必须面对的长期挑战。

另一方面,中国AI产业的崛起正在成为不可忽视的变量。根据OpenRouter平台数据,2026年春节期间,中国开源AI模型的周调用量首次超过美国。以MiniMax、月之暗面(Kimi)、智谱AI、深度求索(DeepSeek)为代表的中国模型,凭借极致的性价比和快速迭代,正在全球市场蚕食份额。OpenAI面临的不仅是Anthropic和Google的正面竞争,还有一个在完全不同生态和成本结构下成长起来的东方对手。

GPT-5.4是一次华丽的技术宣言,它证明了OpenAI在模型能力上依然拥有定义行业方向的力量。但它也是一面镜子,映照出尖端科技公司在追求商业成功、技术霸权与坚守伦理初心之间的艰难平衡。当AI开始真正接管人类的工作流程,谁来控制AI,以及AI为谁服务,将成为比模型参数更值得追问的问题。


标签: ChatGPT OpenAI AI大模型 GPT-5.4

相关文章

腾讯QClaw内测即将结束!疑似明日版本更新或开启公测
AI大模型AI Agent
腾讯QClaw内测即将结束!疑似明日版本更新或开启公测
AI资讯 2026-03-17
谷歌Gemini正式向香港用户开放网页版:移动App即将跟进
谷歌Gemini
谷歌Gemini正式向香港用户开放网页版:移动App即将跟进
AI资讯 2026-03-16
月之暗面Kimi估值飙升至180亿美元:三个月内翻四倍
AI大模型kimi
月之暗面Kimi估值飙升至180亿美元:三个月内翻四倍
AI资讯 2026-03-14
OpenClaw连发版本更新:安全与移动端体验双线升级
AI大模型AI Agent
OpenClaw连发版本更新:安全与移动端体验双线升级
AI资讯 2026-03-14
Copyright © 2026 用你AI · 滇ICP备17007916号-1