谷歌Gemini 3.5 Flash成本暴涨5倍，AI新模型集体涨价成行业趋势

2026.05.20 20:09

谷歌Deepmind发布Gemini3.5Flash，性能提升（智能体任务、多模态等），但运行成本较前代高5.5倍，实际使用中总成本超Pro模型。该模型跟随Anthropic、OpenAI新模型涨价趋势，编码能力弱，幻觉率仍落后顶尖模型，企业需重新评估AI投入ROI。

谷歌DeepMind近期推出了Gemini 3.5 Flash，作为其Flash模型家族的最新成员。Flash系列一直以来的定位，是作为比谷歌更强大的Pro模型更经济、更高效的替代选择。不过，根据提前获得访问权限的Artificial Analysis的分析结果，Gemini 3.5 Flash在基准测试中的运行成本达到Gemini 3 Flash的5.5倍，几乎是Gemini 3.1 Pro模型的两倍，而上下文窗口仍维持在100万token不变。

单看token价格，Gemini 3.5 Flash就比前代涨了三倍：谷歌当前对每百万输入token收费1.50美元，每百万输出token收费9.00美元，高于Gemini 3 Flash的0.50美元和3.00美元。虽然单token价格仍低于Gemini 3.1 Pro的2.00美元输入和12.00美元输出，但实际应用中，Gemini 3.5 Flash在智能体任务上消耗的token更多，最终总成本反而比Gemini 3.1 Pro高出75%。

在Artificial Analysis的智能指数中，Gemini 3.5 Flash获得55分，比Gemini 3 Flash高出9分，领先于Grok 4.3（53分）和Claude Sonnet 4.6（52分）。在评估知识准确性与幻觉倾向的AA Omniscience测试中，它的得分提升了11分，幻觉率降至61%，不过这一表现仍落后于MiMo-V2.5-Pro和Grok 4.3的25%幻觉率。

智能体任务一直是Gemini系列的传统短板，而3.5 Flash在这方面的进步最为显著：在GDPval-AA测试中，它的Elo评分达到1656，远超Gemini 3 Flash（1204）和3.1 Pro（1314），已接近GPT-5.4（1674）的水平。不过，这样的性能提升代价不菲——平均每个任务需要49轮交互，比其他模型都多，直接导致输入token的消耗大幅增加。

编码能力依然是Gemini 3.5 Flash的短板：在Artificial Analysis编码指数中仅拿到45分，落后于Gemini 3.1 Pro（55分）、GPT-5.5（59分）等模型。不过，它的输出速度超过每秒280token，比Gemini 3 Flash快70%，同时支持视频、音频等多模态输入，在MMMU-Pro多模态基准测试中取得84%的得分，创下历史新高。

谷歌的这一调整其实顺应了行业趋势：Anthropic的Opus 4.7因token消耗增加而隐性涨价30%-40%，OpenAI的GPT 5.5则因基础价格上调而涨价50%-90%。对企业来说，raw token价格已不再是唯一考量指标，模型完成任务的效率更为关键，AI投入的ROI评估也因此变得更加复杂。

作品声明：内容由AI生成