谷歌DeepMind近期推出了Gemini 3.5 Flash,作为其Flash模型家族的最新成员。Flash系列一直以来的定位,是作为比谷歌更强大的Pro模型更经济、更高效的替代选择。不过,根据提前获得访问权限的Artificial Analysis的分析结果,Gemini 3.5 Flash在基准测试中的运行成本达到Gemini 3 Flash的5.5倍,几乎是Gemini 3.1 Pro模型的两倍,而上下文窗口仍维持在100万token不变。
单看token价格,Gemini 3.5 Flash就比前代涨了三倍:谷歌当前对每百万输入token收费1.50美元,每百万输出token收费9.00美元,高于Gemini 3 Flash的0.50美元和3.00美元。虽然单token价格仍低于Gemini 3.1 Pro的2.00美元输入和12.00美元输出,但实际应用中,Gemini 3.5 Flash在智能体任务上消耗的token更多,最终总成本反而比Gemini 3.1 Pro高出75%。
在Artificial Analysis的智能指数中,Gemini 3.5 Flash获得55分,比Gemini 3 Flash高出9分,领先于Grok 4.3(53分)和Claude Sonnet 4.6(52分)。在评估知识准确性与幻觉倾向的AA Omniscience测试中,它的得分提升了11分,幻觉率降至61%,不过这一表现仍落后于MiMo-V2.5-Pro和Grok 4.3的25%幻觉率。
智能体任务一直是Gemini系列的传统短板,而3.5 Flash在这方面的进步最为显著:在GDPval-AA测试中,它的Elo评分达到1656,远超Gemini 3 Flash(1204)和3.1 Pro(1314),已接近GPT-5.4(1674)的水平。不过,这样的性能提升代价不菲——平均每个任务需要49轮交互,比其他模型都多,直接导致输入token的消耗大幅增加。
编码能力依然是Gemini 3.5 Flash的短板:在Artificial Analysis编码指数中仅拿到45分,落后于Gemini 3.1 Pro(55分)、GPT-5.5(59分)等模型。不过,它的输出速度超过每秒280token,比Gemini 3 Flash快70%,同时支持视频、音频等多模态输入,在MMMU-Pro多模态基准测试中取得84%的得分,创下历史新高。
谷歌的这一调整其实顺应了行业趋势:Anthropic的Opus 4.7因token消耗增加而隐性涨价30%-40%,OpenAI的GPT 5.5则因基础价格上调而涨价50%-90%。对企业来说,raw token价格已不再是唯一考量指标,模型完成任务的效率更为关键,AI投入的ROI评估也因此变得更加复杂。






快报