5月20日消息,今天凌晨,谷歌I/O 2026开发者大会开幕,谷歌在会上正式发布Gemini 3.5 Flash,并宣布面向全球所有用户开放,可免费使用。Gemini 3.5 Flash在智能水平上已接近大型旗舰模型,同时延续Flash系列高速响应的优势,是谷歌迄今能力最强的智能体与编程模型。据了解,在多项智能体和编码基准测试中,Gemini 3.5 Flash的成绩均超过上一代旗舰模型Gemini 3.1 Pro。具体来看,在Terminal-Bench 2.1测试中,Gemini 3.5 Flash得分达到76.2%,高于Gemini 3.1 Pro的70.3%;GDPval-AA达到1656 Elo;MCP Atlas得分为83.6%,位居全场最高。在多模态理解测试CharXiv Reasoning中,其得分达到84.2%,同样拿下全场最高成绩。除了性能提升,Gemini 3.5 Flash在输出速度上也表现突出,该模型输出速度超过280 token/秒,是GPT-5.5和Claude Opus 4.7的4倍。谷歌表示,凭借速度与性能之间的平衡,Gemini 3.5 Flash非常适合处理长周期智能体任务。过去开发者可能需要数天、审计人员需要数周才能完成的工作,如今在Gemini 3.5 Flash协助下可大幅缩短耗时,且使用成本通常不到其他前沿模型的一半。
当地时间5月1日,美国商务部直属机构——美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)发布对我国DeepSeek V4大模型的评估结果。评估认为,DeepSeek V4比美国技术更具成本优势,但能力相差8个月。CAISI测试了DeepSeek V4在网络安全、软件工程、自然科学、抽象推理和数学等领域的能力,结果包括:DeepSeek V4是迄今为止CAISI评估过的最强大的中国人工智能(AI)模型。DeepSeek V4的实际性能与美国8个月前发布的GPT-5类似。与美国性价比最高的GPT-5.4 mini相比,DeepSeek V4在7项基准测试中的5项上成本更低。
4月24日凌晨,OpenAI正式发布了最新一代大模型GPT-5.5。Artificial Analysis Intelligence Index(第三方,10项eval加权平均)上,GPT-5.5在同等输出token量下智能得分最高,token总消耗明显低于其他模型。该模型目前已向ChatGPT付费用户开放,更高级别的GPT-5.5 Pro,则向Pro、Business、Enterprise用户开放,API即将上线,价格大幅上涨,为$5/$30(每百万Token),比GPT-5.4翻了三倍。