5月20日消息,今天凌晨,谷歌I/O 2026开发者大会开幕,谷歌在会上正式发布Gemini 3.5 Flash,并宣布面向全球所有用户开放,可免费使用。Gemini 3.5 Flash在智能水平上已接近大型旗舰模型,同时延续Flash系列高速响应的优势,是谷歌迄今能力最强的智能体与编程模型。据了解,在多项智能体和编码基准测试中,Gemini 3.5 Flash的成绩均超过上一代旗舰模型Gemini 3.1 Pro。具体来看,在Terminal-Bench 2.1测试中,Gemini 3.5 Flash得分达到76.2%,高于Gemini 3.1 Pro的70.3%;GDPval-AA达到1656 Elo;MCP Atlas得分为83.6%,位居全场最高。在多模态理解测试CharXiv Reasoning中,其得分达到84.2%,同样拿下全场最高成绩。除了性能提升,Gemini 3.5 Flash在输出速度上也表现突出,该模型输出速度超过280 token/秒,是GPT-5.5和Claude Opus 4.7的4倍。谷歌表示,凭借速度与性能之间的平衡,Gemini 3.5 Flash非常适合处理长周期智能体任务。过去开发者可能需要数天、审计人员需要数周才能完成的工作,如今在Gemini 3.5 Flash协助下可大幅缩短耗时,且使用成本通常不到其他前沿模型的一半。
当地时间5月1日,美国商务部直属机构——美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)发布对我国DeepSeek V4大模型的评估结果。评估认为,DeepSeek V4比美国技术更具成本优势,但能力相差8个月。CAISI测试了DeepSeek V4在网络安全、软件工程、自然科学、抽象推理和数学等领域的能力,结果包括:DeepSeek V4是迄今为止CAISI评估过的最强大的中国人工智能(AI)模型。DeepSeek V4的实际性能与美国8个月前发布的GPT-5类似。与美国性价比最高的GPT-5.4 mini相比,DeepSeek V4在7项基准测试中的5项上成本更低。
4月24日凌晨,OpenAI正式发布了最新一代大模型GPT-5.5。Artificial Analysis Intelligence Index(第三方,10项eval加权平均)上,GPT-5.5在同等输出token量下智能得分最高,token总消耗明显低于其他模型。该模型目前已向ChatGPT付费用户开放,更高级别的GPT-5.5 Pro,则向Pro、Business、Enterprise用户开放,API即将上线,价格大幅上涨,为$5/$30(每百万Token),比GPT-5.4翻了三倍。
4月22日消息,OpenAI正式推出ChatGPT Images 2.0(GPT-Image-2),为首款带“思考”能力的图像生成模型,可极简提示生成高仿真界面、海报、试卷等内容,大幅简化设计流程。主要亮点方面包含支持联网检索,可自动补全品牌、场景等信息,一句话生成宣传海报、论文长图、UI界面、试卷等成品 。在Arena.AI文生图榜单登顶第一。
3月20日消息,OpenAI计划将其ChatGPT应用、编码平台Codex和浏览器整合到一个桌面“超级应用”中,旨在优化用户体验。OpenAI发言人称,首席应用官菲吉·西莫(Fidji Simo)将领导公司销售团队负责新产品的市场推广。
当地时间周二,英伟达首席执行官黄仁勋指出,名为OpenClaw的一个快速崛起的AI项目,标志着人类与人工智能交互方式的重大进步。“它现在是人类历史上规模最大、最受欢迎、最成功的开源项目。”黄仁勋在加州举行的英伟达GTC大会期间接受采访时称。他断言:“这绝对是下一个ChatGPT。”OpenClaw(国内常称“小龙虾”)是当前全球最火的开源自主AI智能体平台,超越了传统的聊天机器人。这些智能体不仅能回答问题,还能在用户极少干预的情况下完成任务、做出决策并采取行动。其核心是让AI从 “聊天” 变成 “动手执行任务”。
3月18日,OpenAI推出了GPT-5.4 mini 和 nano,这是其迄今为止功能最强大的小型模型。 GPT-5.4 mini 在编码、推理、多模态理解和工具使用方面都比 GPT-5 mini 有显著改进,同时运行速度也快了两倍以上。GPT-5.4 mini 在包括 SWE-Bench Pro 和 OSWorld-Verified 在内的几项评估中,性能也接近于更大的 GPT-5.4 模型。与此同时,OpenAI表示,GPT-5.4 nano是GPT-5.4系列中体积最小、成本最低的版本,专为速度和成本至关重要的任务而设计。它也是GPT-5 nano的重大升级版。
3月17日消息,宇树科技创始人王兴兴在GTC大会演讲中表示,具身智能要迎来ChatGPT时刻,意味着在80%的陌生场景中,通过语音或文字指令,机器人能够顺利完成大约80%的任务。为了解决上述问题并真正实现具身智能,不能单靠一家公司,需要更多的全球合作。
3月6日,OpenAI推出GPT-5.4,是其最新一代AI模型。该公司表示,该模型在推理能力、编程能力,以及处理涉及电子表格、文档和演示文稿等专业工作方面实现了多项进步。同时,它也是OpenAI首个具备原生计算机操作能力的模型,这意味着它可以代表用户操作电脑,并在不同应用程序之间完成任务。这一新模型是迈向AI公司所追求的“代理化未来”的重要一步。在这种模式下,由AI驱动的代理网络会在后台运行,在互联网和各种软件中完成复杂任务。目前,GPT-5.4已开始在ChatGPT、Codex以及API中推出,其中GPT-5.4 Thinking将提供给Plus、Team和Pro用户。此外,还有一个面向“复杂任务最高性能”的GPT-5.4 Pro模型,将在API以及ChatGPT Enterprise和Edu用户中推出。
3月4日消息,OpenAI推出GPT?5.3即时网站,GPT?5.3即时版自今日起向ChatGPT的所有用户开放。GPT?5.2即时版将在旧版模型板块的模型选择器中向付费用户开放3个月,将于6月3日下线。
OpenAI与美国国防部的一场合作,为自身引来了一场危机。据TechCrunch援引Sensor Tower数据显示,OpenAI宣布与美国国防部达成协议后,2月28日美国ChatGPT移动应用程序卸载量较上一天增加295%——在此前30天内,ChatGPT的平均日常卸载率在9%左右。同日ChatGPT在美国的下载量环比下降13%,3月1日持续走低,跌幅达5%。而在合作消息公布前的2月27日,ChatGPT下载量才刚刚环比增长14%。
2月11日,美团LongCat发布原生“深度研究”Agent(智能体)。基于独创三层智能体闭环架构及美团积累的物理世界数据训练,该产品有效缓解了当前AI在解决真实物理世界问题时容易出现幻觉的痛点。用户盲测显示,其攻略“整体可用率”达61.1%,优于ChatGPT的42.8%。目前该功能已在LongCat网页免费开放。
OpenAI当地时间2月5日推出编码模型GPT-5.3-Codex,该模型在GPT?5.2-Codex的编码性能基础上,融合了GPT?5.2的推理与专业知识能力,实现性能双飞跃,同时运行速度提升25%。这使其能够承担涉及研究、工具使用和复杂执行的长期任务。如同与同事协作般,用户可在GPT-5.3-Codex工作时实时引导并互动,全程保持上下文连贯性。
美国开放人工智能研究中心(OpenAI)12月11日发布其人工智能模型GPT的最新升级版本GPT-5.2,以应对生成式人工智能领域日趋激烈的竞争。为回应谷歌公司11月所发布人工智能模型双子座3的出色表现,OepnAI首席执行官萨姆·奥尔特曼近日启动“红色警报”,加快GPT升级版本的发布速度。OpenAI今年8月推出GPT-5后,11月即发布升级版本GPT-5.1,眼下不到一个月就再次更新。业界认为,此举凸显人工智能行业目前面临的竞争压力。
OpenAI旗下人工智能聊天机器人ChatGPT于12月2日和3日接连遭遇服务中断,部分用户无法正常使用。此次故障主要集中在网页版ChatGPT。根据用户反馈,在尝试通过浏览器与ChatGPT交互时,服务无响应或无法加载。OpenAI在发给CNBC的一份声明中表示:“由于路由配置错误,一些用户昨日早些时候在使用ChatGPT时遇到了一些问题。现在问题已经修复。”据追踪服务中断情况的网站Downdetector统计,周二约有3000人报告了聊天机器人出现问题。尽管此次故障给部分用户带来了不便,但目前来看影响范围有限,并未扩散至所有用户或所有平台。
11月26日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中“感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。
11月22日消息,蚂蚁灵光上线4天下载量突破100万,冲上App Store中国区免费榜第六。灵光首个百万下载速度超过ChatGPT、Sora2、DeepSeek等全球主流AI产品,成为2025年底表现最亮眼的一款通用AI助手。中国AI再一次跑出全球速度。
11月19日,OpenAI推出GPT-5.1-Codex-Max智能体编程模型,取代原GPT-5.1-Codex成为Codex界面默认模型。该模型引入“压缩”机制,可在数百万token上下文中持续高效运行,并在SWE-Bench Verified等基准测试中表现优于Gemini 3 Pro。新模型已集成至OpenAI旗下多个开发工具,支持实时交互与复杂任务处理,但暂未开放公共API。开发者需通过付费订阅使用,普通用户可通过ChatGPT Plus及以上版本体验。
近日,全球AI模型排行榜与评测系统之一LMArena发布最新AI大模型排名,其编程与代码生成模型排行榜(Coding Arena)显示,美国Anthropic的Claude、GPT-5、智谱GLM-4.6排名并列全球第一。据了解,Coding模型是一种专门为编程任务优化的AI模型,旨在帮助开发者更高效地编写、调试和优化代码,目前AI Coding模型已成为全球科技巨头与创企的战略焦点。
OpenRouter官网CDN代码库泄露了GPT-5.1的发布计划。该系列模型分为三个版本:GPT-5.1、GPT-5.1 Reasoning和GPT-5.1 Pro,计划于11月24日发布。GPT-5.1被称为“最新一代ChatGPT旗舰模型”,GPT-5.1 Reasoning能思考更久、回答更好,而GPT-5.1 Pro则定位为“科研级智能”。本周早些时候,一款名为“Polaris Alpha”的神秘模型上线OpenRouter平台,其上下文长度达256,000tokens,可免费使用,在代码生成、工具调用与指令理解方面表现突出。开发方表示该模型旨在收集用户反馈用于后续改进。社区讨论认为Polaris Alpha可能是OpenAI的GPT-5.1(非思考版)。部分测试者指出该模型几乎不产生幻觉,语气与GPT-5系列极为相似。