5月20日消息,今天凌晨,谷歌I/O 2026开发者大会开幕,谷歌在会上正式发布Gemini 3.5 Flash,并宣布面向全球所有用户开放,可免费使用。Gemini 3.5 Flash在智能水平上已接近大型旗舰模型,同时延续Flash系列高速响应的优势,是谷歌迄今能力最强的智能体与编程模型。据了解,在多项智能体和编码基准测试中,Gemini 3.5 Flash的成绩均超过上一代旗舰模型Gemini 3.1 Pro。具体来看,在Terminal-Bench 2.1测试中,Gemini 3.5 Flash得分达到76.2%,高于Gemini 3.1 Pro的70.3%;GDPval-AA达到1656 Elo;MCP Atlas得分为83.6%,位居全场最高。在多模态理解测试CharXiv Reasoning中,其得分达到84.2%,同样拿下全场最高成绩。除了性能提升,Gemini 3.5 Flash在输出速度上也表现突出,该模型输出速度超过280 token/秒,是GPT-5.5和Claude Opus 4.7的4倍。谷歌表示,凭借速度与性能之间的平衡,Gemini 3.5 Flash非常适合处理长周期智能体任务。过去开发者可能需要数天、审计人员需要数周才能完成的工作,如今在Gemini 3.5 Flash协助下可大幅缩短耗时,且使用成本通常不到其他前沿模型的一半。
当地时间5月1日,美国商务部直属机构——美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)发布对我国DeepSeek V4大模型的评估结果。评估认为,DeepSeek V4比美国技术更具成本优势,但能力相差8个月。CAISI测试了DeepSeek V4在网络安全、软件工程、自然科学、抽象推理和数学等领域的能力,结果包括:DeepSeek V4是迄今为止CAISI评估过的最强大的中国人工智能(AI)模型。DeepSeek V4的实际性能与美国8个月前发布的GPT-5类似。与美国性价比最高的GPT-5.4 mini相比,DeepSeek V4在7项基准测试中的5项上成本更低。
4月24日凌晨,OpenAI正式发布了最新一代大模型GPT-5.5。Artificial Analysis Intelligence Index(第三方,10项eval加权平均)上,GPT-5.5在同等输出token量下智能得分最高,token总消耗明显低于其他模型。该模型目前已向ChatGPT付费用户开放,更高级别的GPT-5.5 Pro,则向Pro、Business、Enterprise用户开放,API即将上线,价格大幅上涨,为$5/$30(每百万Token),比GPT-5.4翻了三倍。
3月18日,OpenAI推出了GPT-5.4 mini 和 nano,这是其迄今为止功能最强大的小型模型。 GPT-5.4 mini 在编码、推理、多模态理解和工具使用方面都比 GPT-5 mini 有显著改进,同时运行速度也快了两倍以上。GPT-5.4 mini 在包括 SWE-Bench Pro 和 OSWorld-Verified 在内的几项评估中,性能也接近于更大的 GPT-5.4 模型。与此同时,OpenAI表示,GPT-5.4 nano是GPT-5.4系列中体积最小、成本最低的版本,专为速度和成本至关重要的任务而设计。它也是GPT-5 nano的重大升级版。
3月6日,OpenAI推出GPT-5.4,是其最新一代AI模型。该公司表示,该模型在推理能力、编程能力,以及处理涉及电子表格、文档和演示文稿等专业工作方面实现了多项进步。同时,它也是OpenAI首个具备原生计算机操作能力的模型,这意味着它可以代表用户操作电脑,并在不同应用程序之间完成任务。这一新模型是迈向AI公司所追求的“代理化未来”的重要一步。在这种模式下,由AI驱动的代理网络会在后台运行,在互联网和各种软件中完成复杂任务。目前,GPT-5.4已开始在ChatGPT、Codex以及API中推出,其中GPT-5.4 Thinking将提供给Plus、Team和Pro用户。此外,还有一个面向“复杂任务最高性能”的GPT-5.4 Pro模型,将在API以及ChatGPT Enterprise和Edu用户中推出。
OpenAI当地时间2月5日推出编码模型GPT-5.3-Codex,该模型在GPT?5.2-Codex的编码性能基础上,融合了GPT?5.2的推理与专业知识能力,实现性能双飞跃,同时运行速度提升25%。这使其能够承担涉及研究、工具使用和复杂执行的长期任务。如同与同事协作般,用户可在GPT-5.3-Codex工作时实时引导并互动,全程保持上下文连贯性。
美国开放人工智能研究中心(OpenAI)12月11日发布其人工智能模型GPT的最新升级版本GPT-5.2,以应对生成式人工智能领域日趋激烈的竞争。为回应谷歌公司11月所发布人工智能模型双子座3的出色表现,OepnAI首席执行官萨姆·奥尔特曼近日启动“红色警报”,加快GPT升级版本的发布速度。OpenAI今年8月推出GPT-5后,11月即发布升级版本GPT-5.1,眼下不到一个月就再次更新。业界认为,此举凸显人工智能行业目前面临的竞争压力。
11月19日,OpenAI推出GPT-5.1-Codex-Max智能体编程模型,取代原GPT-5.1-Codex成为Codex界面默认模型。该模型引入“压缩”机制,可在数百万token上下文中持续高效运行,并在SWE-Bench Verified等基准测试中表现优于Gemini 3 Pro。新模型已集成至OpenAI旗下多个开发工具,支持实时交互与复杂任务处理,但暂未开放公共API。开发者需通过付费订阅使用,普通用户可通过ChatGPT Plus及以上版本体验。
近日,全球AI模型排行榜与评测系统之一LMArena发布最新AI大模型排名,其编程与代码生成模型排行榜(Coding Arena)显示,美国Anthropic的Claude、GPT-5、智谱GLM-4.6排名并列全球第一。据了解,Coding模型是一种专门为编程任务优化的AI模型,旨在帮助开发者更高效地编写、调试和优化代码,目前AI Coding模型已成为全球科技巨头与创企的战略焦点。
OpenRouter官网CDN代码库泄露了GPT-5.1的发布计划。该系列模型分为三个版本:GPT-5.1、GPT-5.1 Reasoning和GPT-5.1 Pro,计划于11月24日发布。GPT-5.1被称为“最新一代ChatGPT旗舰模型”,GPT-5.1 Reasoning能思考更久、回答更好,而GPT-5.1 Pro则定位为“科研级智能”。本周早些时候,一款名为“Polaris Alpha”的神秘模型上线OpenRouter平台,其上下文长度达256,000tokens,可免费使用,在代码生成、工具调用与指令理解方面表现突出。开发方表示该模型旨在收集用户反馈用于后续改进。社区讨论认为Polaris Alpha可能是OpenAI的GPT-5.1(非思考版)。部分测试者指出该模型几乎不产生幻觉,语气与GPT-5系列极为相似。
OpenAI于周一宣布,将为其AI编程工具Codex推出新版GPT-5。该公司表示,这款名为“GPT-5-Codex”的新模型,其 “思考” 时间的分配比前代模型更具动态性,完成一项编程任务的耗时可从几秒到7小时不等。这一特性使其在智能体编程基准测试(agentic coding benchmarks)中的表现更为出色。
8月17日,据报道,OpenAI ChatGPT负责人尼克·特利在接受采访时表示,尽管推出了GPT-5模型,但其仍存在“幻觉”问题,即编造信息。特利指出,ChatGPT的可靠性尚未达到完全可靠的程度,建议用户仔细核对答案,不应将其作为主要事实来源。特利解释称,生成式人工智能工具基于训练数据预测答案,而没有对事实的明确理解。他强调,当ChatGPT与传统搜索引擎或公司内部特定数据结合使用时,表现最佳。GPT-5在减少“幻觉”方面取得了巨大进步,但距离完美仍有很长的路要走。
今日凌晨,OpenAI正式推出GPT-5,其表示,GPT-5的智能性能远超公司之前的所有模型,并将面向所有用户开放。具体而言,GPT-5的编程能力表现亮眼。官方称其为“迄今为止最强大的编码模型”,在复杂的前端生成和大型代码库调试方面表现突出。据称,其通常只需一次提示就能创建网站、应用程序和游戏,并兼具美感。其官网上展示的案例包括:网页游戏、像素画图板、打字计时器、架子鼓模拟器,以及一个音频可视化工具。对于GPT-5的表现,OpenAI首席执行官山姆·奥尔特曼也是不吝其夸赞:“无论是显而易见的还是微妙的,感觉都好多了。GPT-5让人感觉像是在与各个领域的专家交谈——一位博士级别的专家。”他表示,该系统是公司朝通用人工智能(AGI)的最终目标迈出的“重要一步”。开源证券指出,GPT5等模型及Agent能力的持续跃迁,将继续助力AI应用商业化加速。综合多家券商研报来看,GPT-5的编程能力被视作有望引领下一代AI落地的核心应用。
当地时间8月7日,OpenAI宣布推出其迄今为止最先进的人工智能模型GPT-5,该模型在编码、创意写作以及复杂查询推理方面具备更强的能力。GPT-5将在未来一周内分批向包括免费用户在内的所有ChatGPT用户开放,Plus会员可获得更多使用量,Pro会员则可访问GPT-5 Pro版本——该版本具有扩展推理能力,可提供更全面、更准确的答案。
8月7日,OpenAI发文称太平洋时间周四上午10 点(北京时间周五凌晨1点)将有直播活动,暗示将会推出GPT-5模型。能够看到“LIVESTREAM”的字母“S”被替换成了“5”,这被解读为GPT-5。
据报道,OpenAI 在墨西哥 AI 峰会上透露新一代模型 GPT-5 即将问世,性能远超 GPT-4,初步计划于今年 7 月推出,不过具体时间仍可能调整。GPT-5 的推出旨在与 Gemini 2.5 Pro 和 Claude 4 等竞品展开激烈竞争,OpenAI 希望借此占据更大优势。
2月21日消息,据悉,微软正在为OpenAI的最新模型做准备,预计GPT-4.5最快有望于下周面世,微软预计GPT-5有望于5月下旬发布。更新后的GPT-5将对ChatGPT的使用方式进行重大改进,统一OpenAI的o系列和GPT系列模型,减少用户选择模型的困惑。
由于计算成本居高不下,加上高质量训练数据的稀缺,OpenAI在推进GPT-5的开发进程上正落后于原定计划。截至目前,OpenAI的GPT-5开发进度落后半年,训练成本高达5亿美元。OpenAI已至少对GPT-5实施了两轮大规模训练,旨在借助海量数据资源来优化模型效能。
OpenAI的首席执行官Sam Altman在周四透露,由于计算能力的限制,公司无法按预期频率推出新产品。他解释称,随着AI模型变得日益复杂,公司难以同时处理众多项目,尤其是在计算资源分配上面临挑战。