谷歌I/O大会的10个新东西,用Gemini接管一切

钛度号
谷歌想要证明,自己仍然拥有把AI变成日常入口的最大生态。

文 | 字母AI

一年一度的谷歌I/O大会,重磅来袭。

输出速度上,比其它前沿模型快4倍,在人工智能分析指数中位列右上象限——意思是又快又强。

定价上,3.5 Flash输入$1.50/百万token,输出$9.00/百万token,比3 Flash贵了3倍,比3.1 Pro便宜40%。

在Gemini 3强大的多模态基础之上,3.5 Flash可以生成更丰富、更具交互性的Web用户界面和图形。

它可以在不到一分钟里生成6个不同的支付页面,也可以一次做出64个分形图案变体;用户只要用文字描述一个想法,它就能生成可互动的网页组件。

更复杂一点,它还能把论文、课程视频变成互动式学习卡片和可视化页面,甚至在Google搜索里,根据用户的问题现场生成图表、模拟器和沉浸式解释界面。

谷歌对它的定位是:can create anything from any input(从任何输入,生成任何内容)。

当然,现在第一步还是视频。之后谷歌还计划支持图片、音频等更多输出形式。

首个上线的是Gemini Omni Flash,已经向Google AI Plus、Pro和Ultra订阅用户开放,可以在Gemini App和Google Flow 中使用;YouTube Shorts和YouTube Create App也会免费接入。未来几周,谷歌还会把它通过API开放给开发者和企业客户。

Omni不是一个单纯的文生视频模型。它可以把文字、图片、音频、视频一起作为输入,然后生成一段完整视频,并且支持对话式视频编辑。

谷歌说,今年对Gemini App来说是“硕果累累的一年”。去年I/O时Gemini App有4亿用户,现在已经有超过9亿月活,覆盖230多个国家和70多种语言。

这次 Gemini App 的更新主要有几个:

第一,接入Gemini 3.5 Flash。

第二,推出新的设计语言Neural Expressive。界面会更动态,有流体动画、更鲜明的颜色、新字体、触觉反馈。Gemini Live也被直接整合到Gemini,用户可以从打字自然切到语音对话。谷歌还说,Gemini以后不只是给你一堵文字墙,而是会根据问题实时生成更适合的回答形式,比如图片、交互时间线、旁白视频、动态图形等。这个新设计从今天起在Web、Android、iOS全球推出。

第五,也是最重要的,是Gemini Spark。

Gemini Spark:谷歌版24小时个人Agent

Gemini Spark是这次最值得单独介绍的产品之一。

谷歌给它的定位是24/7 personal AI agent。也就是说,它可以在你授权下,持续帮你做事。

它运行在Gemini 3.5上,使用Antigravity harness,并且深度连接Gmail、Docs、Slides等工具。而且因为它是云端Agent,所以你关掉电脑、锁上手机,它也可以继续在后台工作。

谷歌举了几个例子。

比如你可以让它定期解析每月信用卡账单,找出新增订阅或者隐藏费用;或者教它检查孩子学校邮件,把重要日期提取出来,每天发一份简报给你和伴侣;再比如,你可以让它从邮件和聊天记录里的会议笔记中提炼信息,整理成Google Docs,再起草一封项目启动邮件。

这是典型的Agent叙事:帮你跨应用完成一串动作。

这也是谷歌最有优势、也最敏感的地方:它手里有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用户愿意授权,Gemini可以触达的个人上下文,将成为一个非常庞大的生态。

当然,谷歌也在强调权限和安全。Spark需要用户选择是否开启、连接哪些App;涉及花钱、发邮件等高风险动作时,会先询问用户。

这一功能本周先面向trusted testers,下周计划作为Beta推给美国Google AI Ultra用户。

macOS版Gemini:开始进入桌面工作流

Gemini App还有一个比较容易被忽略的更新:macOS桌面版。

谷歌说,Gemini的macOS App已经可以下载,接下来会把Gemini Spark带到桌面端,让它处理本地文件,并自动化桌面上的工作流。它还会加入新的语音能力:用户可以对着屏幕说一段并不完整、夹杂着停顿和口头禅的话,Gemini能根据屏幕上下文,把它整理成更准确的文本,并直接放到光标所在位置。

这件事看起来小,但也值得注意,因为Agent最终不可能只在网页里工作。很多真实工作发生在本地:文件夹、桌面软件、浏览器、多窗口、多文档之间。谷歌把Spark带到macOS,其实就是在往桌面Agent的方向走。

我们之前写过一篇文章,说PC才是agent时代的头号硬件,谷歌之前在The Android Show上发布的种种更适应真实工作流的软硬件产品,和这件事也是互通的。

Google Search:搜索框25年来最大改版

这次最有象征意义的产品,还是Search。

它会动态展开,让你用更自然的方式描述问题;它会根据意图给出AI建议,不只是传统自动补全;它支持多模态输入,可以用文本、图片、文件、视频,甚至Chrome标签页作为输入。

也就是说,搜索不再只是“给我十个链接”,变成了“我有一个问题、一段材料、一张图、一个网页上下文,你帮我理解并继续往下走”。

另外,AI Overview 也可以更自然地接入AI Mode。用户可以直接对AI Overview继续追问,搜索会带着上下文进入对话。这个体验已经在桌面和移动端全球上线。

Search这次还有一个更Agent化的能力:Search agents。

谷歌说,用户以后可以在Search里创建、定制和管理多个AI agents。第一批是information agents,信息型Agent。它们可以24小时在后台监控你关心的信息,然后在合适的时候给你一份综合更新。

这和Google Alerts很像,但更智能。

Google Alerts只能按关键词订阅。Search agents订阅的是“你的意图”。它不像爬虫那样只看某个词有没有出现,而是理解你到底要什么,然后跨网页、新闻、社交、购物、体育、金融等信息源监控变化。

information agents今年夏天先给Google AI Pro和Ultra用户推出。

此外,Search还在扩展agentic booking,也就是帮你完成预订类任务。比如你要找一个周五晚上、能坐6个人、供应夜宵的私人KTV房间,Search会综合价格和可用性,并给你直接完成预订的入口。部分品类,比如家政维修、美容、宠物护理,用户甚至可以让Google代为给商家打电话。这些能力今年夏天在美国面向所有用户推出。

另外,谷歌还把Antigravity和Gemini 3.5 Flash的编码能力带进了Search。目标是让搜索结果不再只是文本、图片、表格,而是根据你的问题即时生成合适的交互界面。

比如你想理解天体物理,或者想看手表内部怎么运转,Search可以实时组装交互视觉、表格、图表、模拟器。这些generative UI能力今年夏天会免费开放给所有Search用户。

更进一步,Search还可以为持续性任务生成mini apps。比如你在搬家、筹备婚礼、管理健康计划,不是一次搜索就结束,而是一个长期项目。Search可以给你生成一个自定义dashboard或tracker,以后你可以持续回来用。

谷歌发布了Universal Cart,一个跨服务、跨商家的智能购物车。它可以出现在Search、Gemini、YouTube、Gmail里。用户在搜索商品、和Gemini聊天、看YouTube、读Gmail的时候,都可以把商品加入同一个购物车。

但它不是普通的购物车。

商品一加入购物车,它就会在后台开始工作:找优惠、追踪价格下降、查看价格历史、提醒补货。它还会用推理能力提前发现问题,比如你在不同零售商那里买电脑配件,它会提醒你哪些零件不兼容,并推荐替代方案。

以前Google Glass确实做得挺烂的,甚至能算是硅谷硬件史上“技术很酷,但产品没想明白”的典型案例。

这次和当年Google Glass最大的不同是产品逻辑换了。Google Glass像是把手机通知、拍照、导航这些功能,硬塞到眼前,但这次的Gemini智能眼镜更像是:让AI随时看见你看到的东西、听见你听到的东西,然后帮你理解和处理。

也就是说,它不再只是“戴在脸上的小屏幕”,变成了一个更自然的AI入口。

在今年的I/O大会上,谷歌分享了更多关于智能眼镜的信息:这种眼镜可以在不打断你的情况下,即时提供帮助。

智能眼镜分为两种:一种是音频眼镜,可以在你的耳朵里提供语音帮助;另一种是显示眼镜,可以在你需要的时候立即显示所需信息。这两种眼镜都能让你解放双手,专注于其他事情,只需开口询问,即可获得Gemini的帮助。

音频眼镜会先上市,今年秋天推出。

样子看起来,怎么说,挺日常的。

功能上,它可以通过“Hey Google”或者轻触镜腿唤起Gemini。用户可以问它眼前看到的东西,比如路过一家餐厅,问它评价怎么样;看到一块云,问这是什么云;看到复杂停车标志,让它帮你解释。

它还支持导航,也可以接电话、发短信、总结错过的消息、播放音乐;可以拍照和视频,并用Nano Banana做图像编辑,比如拍完照直接说“给每个人戴上搞笑帽子”;还能实时翻译语音和文字,翻译语音时甚至会尽量匹配说话人的语气和音高。眼镜也可以连接 Uber、Mondly等手机应用,并同时支持Android和iOS。

虽然不好说实际使用效果如何,但这次至少避开了Google Glass当年的几个坑:

不再把眼镜当成微型手机,核心不是通知和小屏幕,而是Gemini对现实世界的理解和任务执行;不再一上来押注重AR,先推音频眼镜,降低硬件难度和社会接受门槛;不再忽视外观,找Gentle Monster和Warby Parker,承认眼镜是时尚消费品,不是纯科技产品。

毕竟当初Google Glass长这样:

场景也更清楚了。导航、翻译、识别眼前事物、总结消息、拍照编辑、叫车点单,这些都更接近“我为什么要戴它”。

Google Antigravity 2.0:开发者侧的Agent工作台

开发者侧,最重要的是Google Antigravity 2.0。

谷歌把它称为agent-first development platform。也就是说,它不是普通 IDE 插件,而是一个以Agent为中心的开发平台。

这次I/O大会发布了Antigravity 2.0桌面应用、Gemini API里的Managed Agents,以及AI Studio的原生Android vibe coding。

过去AI编程工具的核心是“帮你补代码、写函数、解释报错”,现在谷歌想做的是“从prompt到生产就绪app”,也就是你给一个目标,AI就能规划、拆任务、调用工具、跑测试、修bug、部署,并且可能让多个子Agent并行工作。

这和Codex、Claude Code、Cursor竞争的是同一条赛道。谷歌的优势在于它不只有模型,还有Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完整生态。

Project Genie + Street View:世界模型开始连接真实街景

另一个偏前沿的产品是Project Genie。

<img src="https://images.tmtpost.com/uploads/images/2026/05/38e432fc2e6d1f681af120608808a385_1779253324.jpg?imageMogr2/auto-orient/strip/interlace/1/quality/85/thumbnail/1440x812/gravity/center/crop/!1440x812&ext=.jpg /></p><p>Genie是Google DeepMind的通用世界模型,可以生成多样化、可交互的环境。谷歌说,它已经成为研究工具,可以让Agent在复杂虚拟环境中学习和推理,也帮助Waymo(Alphabet旗下的自动驾驶公司)模拟高真实度道路环境。</p><p>这次的新能力,是把Genie和Google Street View连接起来。</p><p>也就是说,Genie 的生成能力开始和Google近20年街景图像结合,让模型生成的环境可以锚定真实世界。谷歌说,这可以为AI agents或机器人提供虚拟环境,让它们在其中导航、互动、学习现实世界的复杂性。</p><p>机器人和自动驾驶需要大量真实世界数据,但现实世界测试昂贵、危险、慢。世界模型可以提供虚拟训练场;而Street View则是谷歌独有的数据资产。二者结合,意味着谷歌可以把真实街景变成可交互的模拟环境。</p><p>换句话说,Project Genie是谷歌把“地图资产”变成“AI训练环境”的尝试。</p><h3><strong>总结</strong></h3><p>今年Google I/O不是一个单点发布会,而是一次生态铺开。</p><p>模型层,谷歌发布Gemini 3.5和Gemini Omni。前者面向行动和 Agent,后者面向全模态生成和视频编辑。</p><p>产品层,Gemini被塞进Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。它不再只是一个App,而是Google产品体系里的统一智能层。</p><p>商业层,谷歌开始把Agent落到真实任务上:帮你盯信息、订服务、管购物车、处理邮件、写文档、做App、生成视频、甚至辅助科研。</p><p>这次大会的一个明显趋势是,谷歌正在把Gemini改造成Google生态的操作系统。</p><p>过去的Google,是一个你主动使用的工具箱,你可以用它搜索、发邮件、写文档……现在,谷歌想让Gemini站在这些工具之上,理解你的意图,调用这些工具,替你完成一串动作。</p><p>今年I/O的发布看起来特别多、特别散:搜索、购物、办公、视频、眼镜、开发、科研,几乎每条线都在讲AI,它们指向的其实是同一件事:</p><p><strong>谷歌想要证明,自己仍然拥有把AI变成日常入口的最大生态。</strong></p>

本文系作者 字母AI 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App