我是虾哥,不是程序员。
今天(5月20日),谷歌I/O 2026大会在现场拉开帷幕。Sundar Pichai站上台,两小时轰炸式发布了数十个产品更新。
信息量爆炸。我连夜把最关键的内容整理出来,帮你一次看清。
📊 本文核心数据:
❶ 谷歌月处理token量:3200万亿(去年同期480万亿,同比增长7倍)
❷ Gemini App月活:9亿(去年I/O时为4亿,1年内翻倍)
❸ AI Mode月活:10亿(上线1年,每季度翻一倍)
❹ 2026年资本开支:1800-1900亿美元(是2022年的6倍)
一、最核心:Gemini 3.5系列亮相本次大会最重磅的发布,是Gemini 3.5系列。一如既往,谷歌先丢出Flash版本,Pro下个月上线。
❶ Gemini 3.5 Flash(已发布,即日起可用)性能数据:
• 基准测试成绩超过上一代Gemini 3.1 Pro
• 在衡量真实经济价值的GDPval基准上提升尤为明显
• 输出速度是其他前沿模型的4倍
• 搭配Antigravity 2.0优化版本,可达12倍速度
• 价格不到同档前沿模型的一半
成本优势(这个数字很夸张):
头部企业若将80%的token负载从其他前沿模型迁移至3.5 Flash,一年可节省超10亿美元。
内部使用数据:
• 3月时谷歌内部每日处理5000亿token
• 当前已超3万亿token/日,每几周翻一倍
• 谷歌内部已全面切换至Antigravity 2.0 + 3.5 Flash开发流程
定位:专为长时程Agent任务设计,可大幅降低企业Agent使用成本。
❷ Gemini 3.5 Pro(下月亮相)• 当前在谷歌内部测试中,效果良好,仍在打磨
• Sundar Pichai透露将于夏季正式推出
• 预期性能将大幅超过3.5 Flash
二、最大惊喜:Gemini Omni(世界模型)Gemini Omni是谷歌首个"任意模态输入、任意模态输出"的原生多模态世界模型。这是Gemini原生多模态底层设计的延伸,Veo(视频生成)、Nano Banana(图像编辑)是其能力组件。
发布节奏:
• Gemini Omni Flash:5月19日向谷歌AI订阅用户开放,入口包括Gemini App、Google Flow、YouTube Shorts
• 所有生成/编辑内容自带SynthID水印
• Omni Pro:"即将推出"
能力亮点:
• 以视频生成为切入点,支持纯文本生成视频
• 支持上传自有视频进行风格修改/角色替换/时间连续性编辑
• 可将复杂想法可视化,生成解释类视频、复杂概念分解视觉内容
• Nano Banana累计已生成超500亿张图片,其编辑能力已同步接入Omni的视频生成功能
三、最重磅产品:Gemini Spark(个人云端Agent)Gemini Spark是谷歌本次推出的对标OpenClaw的个人Agent,7×24小时在线,跑在谷歌云专用虚拟机上,设备关机后仍可后台运行。
底层架构:基于Gemini 3.5 + Antigravity Harness框架,支持长周期任务。
核心能力:
• 已打通谷歌全系产品,可自动拉取Gmail、Docs、Sheets、Slides内容生成工作汇报草稿
• 支持创建自动更新的学习指南、管理日程、监控收件箱等功能
• 后续将开放第三方MCP接入、支持短信/邮件直接指挥Spark、自定义子Agent、接入Chrome跨网页操作
• Android端将新增"Android Halo"入口,可实时查看Spark执行进度
安全设计:
• 全程展示"思考轨迹",用户可随时打断
• 执行敏感操作前需用户确认(例如发送日历邀请前会二次确认)
开放节奏:
• 已向受信任测试者首发
• 下周作为Beta版推送给美国谷歌AI Ultra订阅用户
• 后续将逐步覆盖普通用户
💡 虾哥点评:
Gemini Spark是谷歌对OpenClaw的正面应战。关键差异在于:Spark跑在谷歌云专用VM上,设备关机后仍能后台运行,这是OpenClaw目前做不到的。但OpenClaw的开放生态更强,Spark能否打赢,还得看MCP接入的进度。
四、开发者最关注:Antigravity 2.0(对标Claude Code/Codex)Antigravity从1.0版本的"编程环境"升级为"多Agent编排平台",已有数百万开发者使用1.0版本。
三层架构:
• 独立桌面App:作为Agent交互中央枢纽,可同时编排多个Agent并行工作(例如同时运行代码编写、品牌素材生成、产品架构规划等不同Agent)
• 全新Antigravity CLI:命令行接口,面向偏好终端操作的开发者
• Antigravity SDK:开放谷歌内部自用Agent Harness的可编程访问权限,支持与Gemini模型协同优化
能力验证(这个数字很夸张):
• 内部测试中,在Gemini 3.5 Pro支持下,可调度93个Agent消耗26亿token,从零完成复杂系统搭建
• 搭配3.5 Flash可让Agent从零搭建出可运行的操作系统,API消耗低于1000美元
配套安全Agent:
• CodeMender:可自动识别、修复代码漏洞,直接完成补丁编写
• 当前已邀请专家测试API,后续将广泛开放
五、搜索25年来最大升级谷歌在现场宣布,搜索迎来了25年来最大升级。
更新1:新搜索框
• 支持长文本、口语化查询,AI驱动查询建议替代原有自动补全
• 支持多模态输入
• 5月19日已上线
更新2:AI Overviews与AI Mode合并
• 合并为无缝体验,用户获取AI概览后可直接在原页面追问进入AI Mode
• 5月19日已全球上线移动端和桌面端
• 当前AI Mode月活超10亿,上线以来每季度查询量翻一倍
更新3:Information Agents(信息智能体)
• 用户可创建、定制24小时运行的后台Agent
• 例如设置行业动态监控,Agent会自动制定监控计划、调用实时金融数据等工具,触发条件后推送带链接的更新报告
• 今夏上线
更新4:Generative UI(生成式UI)
• 将编程能力注入搜索,例如搜索"黑洞如何影响时空"时,除了AI概览还会生成可交互可视化内容
• 用户追问时可现场生成新可视化,基于Gemini 3.5 Flash + DeepMind实时代码生成系统
• 今夏将免费向所有用户开放
• 同时支持用户用自然语言描述需求,搜索现场生成定制化mini-app(例如个性化健身app,可接入天气、日历、饮食偏好生成餐单和食谱)
• 未来几个月先向美国谷歌AI Pro/Ultra订阅用户开放
六、Gemini App内置Agent能力大幅升级更新1:全新设计语言Neural Expressive
• 5月19日已全球开放Android、iOS、Web端
• 更新了动效、色彩、字体和触感反馈
• 回答不再以整段文字呈现,核心信息加粗置顶,下方交错排列图片、时间线、可视化图表
• Gemini Live无需切换模式直接内嵌
更新2:Daily Brief(每日简报)
• 首款开箱即用Agent,每天早上自动整理用户收件箱、日历、当日核心任务
• 生成个性化简报并给出下一步建议
• 前身为2025年12月谷歌Labs实验项目Cici,因用户反馈良好收编为正式功能
• 5月19日起向美国所有谷歌AI订阅用户开放
更新3:接入Gemini Omni
• 支持上传任意照片/视频,一键应用内置模板
• 还可创建"外观、声音与用户一致"的AI化身,置入Omni生成的内容中
七、基础设施:第八代TPU首次"双芯片"分工谷歌在本次大会上披露了第八代TPU的详细设计,这是谷歌首次采用"双芯片"分工设计:
• TPU 8t:专职训练,原始算力接近上一代芯片的3倍
• TPU 8i:专职推理,大幅提升响应速度
• 两款芯片每瓦特性能均提升2倍
规模数据:
• 全球分布超100万颗TPU,为"世界最大训练集群"
• 配合JAX和Pathways框架,训练任务可跨多个数据中心调度
• 模型训练周期从数月缩短至数周
资本开支:
• 2026年预计资本开支1800-1900亿美元,是2022年(310亿美元)的6倍
• 当前谷歌每月跨自有产品处理token量达3200万亿,是2025年I/O时的7倍
八、定价与订阅调整谷歌同步调整了AI订阅计划,明显是为配合Gemini Spark等Agent产品的普及:
计划名称 价格(月付) 核心变化 Ultra Plan(新增) $100/月 面向需要重度Agent服务但未达到顶配需求的用户 Ultra Plan(原顶配) $200/月(降幅20%) 原$250/月,降价$50 Pro Plan $19.99/月 维持不变
调整目的:降低重度Agent服务使用成本,让更多用户可使用Agent能力。
九、其他重要发布❶ SynthID技术升级• SynthID是谷歌推出的不可见数字水印技术,上线以来已累计为超1000亿张图片/视频、总时长相当于6万年的音频内容添加水印
• 当前数百万用户使用Gemini App中的SynthID检测工具验证AI生成内容
• 本次新增:在核心产品中加入内容凭证验证(Content Credentials verification),可帮助识别内容是相机拍摄还是AI生成、是否经过生成式AI工具编辑
• 计划将Content Credentials和SynthID核验功能直接嵌入Google搜索和Chrome浏览器
• 生态合作:继2025年NVIDIA加入后,OpenAI、Kakao、Eleven Labs也将采用SynthID水印标准
❷ Android XR智能眼镜• 分两款:音频眼镜可提供耳边实时语音协助;显示眼镜可在用户需要时呈现所需信息,均支持解放双手、随时向Gemini提问
• 音频眼镜2026年秋季晚些时候率先上市
❸ Google Flow(面向所有用户推出)• 可根据用户输入推理规划复杂任务
• 基于Gemini模型构建,可理解用户项目背景,协助完成头脑风暴、内容撰写编辑
• 支持氛围编程(Vibe code)定制创意工具,例如视频特效设计、手绘动画、图层文本混合小工具
❹ Gemini for Science平台• 面向科研的AI工具集合,基于Gemini深度推理、研究能力
• 新增Labs全新实验和Science Skills,可无缝连接全球30多个主流生命科学核心数据库和专业工具
• 即日起可在Google Labs申请体验,Science Skills当日已在GitHub及Antigravity平台上线
十、虾哥的现场总结看完整个发布,我最大的感受是:谷歌这次是认真的。
❶ Agent全面开战:Gemini Spark直指OpenClaw,Antigravity 2.0直指Claude Code/Codex。谷歌不再只做模型,而是全栈入局Agent赛道。
❷ 成本战打响:Gemini 3.5 Flash价格是同档前沿模型的一半,性能还更强。这是谷歌用价格战抢开发者的信号。
❸ 生态壁垒加固:Gemini已深度嵌入谷歌全系产品(Gmail、Docs、Sheets、Slides、Maps、YouTube、Chrome...)。这不是单一产品竞争,是生态级竞争。
❹ 基础设施碾压:100万颗TPU、1800-1900亿美元资本开支、3200万亿token/月处理量。这些数据背后,是谷歌在用算力壁垒构建护城河。
🎯 一句话总结:
谷歌I/O 2026的主题只有一个:把Gemini变成所有人的Agent。从模型到平台、从云端到眼镜、从搜索到订阅,全栈入局。对开发者和用户来说,2026年的AI Agent赛道,好戏才刚刚开始。
十一、对国内开发者的启示作为国内开发者,这次发布有几个信号值得关注:
❶ Agent编排能力是下一个竞争焦点。Antigravity 2.0能调度93个Agent,这个数字背后是极强的工程能力。国内同类产品还在"单Agent"阶段,差距明显。
❷ 成本优势是突破口。Gemini 3.5 Flash价格是同类的一半,国内模型(DeepSeek、通义、智谱)如果不能在成本上对标,开发者会被谷歌抢走。
❸ 多模态世界模型是方向。Gemini Omni支持任意模态输入/输出,这是单一文本/图像模型做不到的。国内大模型追赶的不仅是性能,还有模态覆盖。
我是虾哥,不是程序员。但我会帮你把AI圈的大事看明白、讲清楚。
这篇简报写得急,如果有遗漏的重要发布,欢迎在评论区补充。我们下期见!
我是虾哥,不是程序员
搞了多年连锁零售信息化,现在专注AI工具实战
喜欢这篇文章?欢迎分享到朋友圈
标签:#Google IO 2026 #Gemini 3.5 #Agent #Antigravity 2.0 #Gemini Spark #谷歌开发者大会 #AI大模型
数据来源:Google I/O 2026官方主题演讲、PingWest中文网现场报道、Google官方博客(2026-05-20)
富深所配资提示:文章来自网络,不代表本站观点。