文 | 舒书
2026年6月14日,美加墨世界杯小组赛C组首轮,FIFA排名第6的巴西对阵第7的摩洛哥。赛前,联想天禧AI平台集结的12家大模型参与人机大战预测,AI阵营一致看好巴西取胜。结果,1比1。
这是开赛以来AI阵营共识度最高的一次判断,也是最具代表性的一次集体失分。
一、AI为什么集体失算?
第一层:数据层——联赛数据训练出的系统性偏见
业内技术测算显示,面向足球赛事分析的通用大模型,训练样本中俱乐部联赛赛事占比普遍超七成,国家队杯赛样本体量偏低,天然形成对杯赛首轮保守打法的数据盲区。世界杯作为赛会制杯赛,各队在首战往往以试探和防守为主,战意保守导致平局率较高。
从近五届世界杯首轮数据看,平局比例在25%-37.5%之间波动:2010年南非世界杯首轮16场出现6场平局,平局率高达37.5%;2014年巴西世界杯首轮5场平局,占比31.3%;2018年俄罗斯世界杯首轮5场平局,占比31.3%;2022年卡塔尔世界杯首轮4场平局,占比25%。
而作为参照的五大联赛中,英超平局率约27%,意甲约29%,德甲约24%。世界杯首轮平局率在多数年份显著高于联赛水平,这正是模型系统性误判的结构性根源。
第二层:模型层——共识陷阱与信息幻觉
12家AI模型——联想天禧AI、千问、百度文心、腾讯混元、DeepSeek、Kimi、智谱、MiniMax、阶跃星辰、讯飞星火、商汤小浣熊、中移九天——全部给出巴西取胜的判断,有的甚至预测2比0、3比0。
当所有模型给出完全一致的答案时,看似是算法的确信,实则暴露出模型在训练数据、推理路径和强队偏好上的严重趋同。算法越趋同,一旦判断错误,集体失分的风险就越高。这是一种共识陷阱——过度依赖强队底蕴、身价等宏观数据,对具备极强战术执行力和防守韧性的非传统强队缺乏敏感度。
值得注意的是,有AI在分析中给出了摩洛哥近5年对巴西保持全胜的理由。然而,根据专业足球媒体的赛前分析,两队历史上实际交锋仅3次,巴西2胜1负,摩洛哥唯一一场胜利是2023年3月的友谊赛,距今仅三年,根本构不成近五年全胜。
所谓近5年全胜实为AI生成的虚假信息。这类幻觉源于通用大模型缺乏实时检索校验机制,仅依靠训练数据概率推演;两队交锋属于极小样本,模型无法精准切割时间区间,直接将单场友谊赛胜利泛化为近五年全胜,用虚构论据支撑预判。
这不仅是一个数据错误,更暴露了AI在信息整合中的结构性缺陷——它在编造历史时,自己都不知道自己在编造。
需要区分的是,本次集体翻车的12款均为通用对话大模型,并非针对足球赛事专项训练的垂直AI。成熟体育垂直预测系统会单独对杯赛首轮保守战术、球星伤病、场地温湿度做特征微调,二者预测逻辑本身存在代差。如果使用的是垂直模型,平局预判的概率可能会高出不少。
客观看待:AI的基础信息能力并未失效
需要客观看到,AI虽错判最终胜负,但12个模型全部精准识别出巴西阵容实力底色、内马尔进攻核心地位等基本面信息。AI批量整合海量数据、梳理多维信息的基础能力稳定可靠,短板集中在非线性胜负结果推演。
第三层:环境层——不可量化的变量被系统性低估
巴西主教练安切洛蒂在赛前确认,内马尔因小腿二级损伤缺席首战。这是赛前已知的关键信息,但AI模型的训练数据大量包含内马尔巅峰时期的进攻胜率——该变量被遗漏或低估,直接导致模型高估巴西实力。数据越旧,偏差越大;模型越依赖历史,对此刻的判断就越脆弱。
此外,本场比赛在纽约新泽西体育场(MetLife Stadium)举行,当地夏季气温较高,比赛当日体感温度超过30℃,高温高湿环境影响球员体能和战术执行。赛前该地区还遭遇暴雨袭击,一度引发比赛延期担忧。世界杯在美加墨三国多地举行,不同比赛面临的环境差异巨大——墨西哥城的高海拔(超过2200米)、北美夏季的高温高湿——这类极端环境因素直接影响球员体能和战术执行,却在传统数据模型中被当作噪音过滤。摩洛哥球员大多在欧洲联赛效力,对高温高湿环境的适应能力不如在当地踢球的球员,这一变量同样未被纳入模型。
![]()
二、AI在足球预测中的错误,对商业决策有什么警示?
把足球预测类比到商业决策,需要先承认两者的本质差异:足球是90分钟一次性博弈,对手可半场临时变阵、球员心态波动无补救窗口;商业决策以月/季度为周期,可小范围灰度测试、动态调整,竞品策略传导慢。足球胜负高度掺杂体能、临场心态、裁判尺度这类极难量化的人体情绪变量;商业营收、供应链、消费者行为量化指标更多、采集更稳定。
但共通的风险在于:当AI被当作决策者而非参考工具时,都会翻车。
智源研究院院长王仲远在2026北京智源大会上指出:当前商用通用大语言模型的主流生成范式为逐Token概率预测——从海量数据中寻找统计规律。但在真实物理世界,现有模型还有很大局限性。模型可以告诉你历史上强弱对战胜率85%,但它不知道今天的85%会不会是那15%。
杨立昆在2026年5月的访谈中直言:大语言模型本身并没有问题,但它们不是通往真正智能的道路。“LLM非常擅长语言处理,但是现实世界比语言复杂得多”。他批评自回归LLM不适合做复杂决策,但并非全盘否定AI的价值。正如他所说,需要范式转变这一认知正在发生,而产业界已经开始意识到这一点。
据MIT研究,AI模型在生成错误内容时,使用自信语气的概率比生成正确内容时高出34%——它在编造时,听起来反而最可信。这一判断在企业AI应用中也被验证。MIT NANDA项目组发布的《2025年AI商业现状》报告显示:仅有5%的生成式AI试点进入生产阶段并产生可衡量的损益影响,95%的项目未产生可见回报。核心障碍不是基础设施或监管,而是学习能力——大多数AI系统无法保留反馈、适应情境或实现持续改进。这正是杨立昆所说的需要范式转变的产业映证。
![]()
三、给组织的三条提醒
1. 共识度越高,集体翻车的风险越大。
12个AI模型一致看好巴西,然后一起错。当所有模型给出同一结论时,看似是算法的确信,实则是风险的高度集中。算法越趋同,一旦判断错误,集体失分的风险就越高。这不是AI的问题,是任何依赖统计规律的系统的共同命运——当所有人都用同一套数据、同一套方法论、同一套评估框架时,共识本身就是最大的风险敞口。
实操方案:强制要求模型输出置信度而非二元结论;要求模型列出可能导致预测失败的条件作为交付物的一部分;在金融投研、消费品投放中,同时跑2-3套不同架构的模型(如通义千问、文心、GPT),用投票机制处理冲突预测,设置悲观/中性/乐观三套情景测算,而非依赖单一概率结论。
2. 预测≠决策。
在世界杯预测里,AI可以错,无非猜错了继续猜。但在商业决策里,一次错误的押注可能影响一整年。
AI幻觉的产生与大模型训练机制密切相关:AI的知识基本来源于训练数据,当某个领域专业数据不足时,AI便可能通过模糊的统计规律来填补空白。多家AI安全监测报告证实,大模型输出虚构幻觉内容时,语气自信程度普遍高于真实准确回答,极易误导决策者。
实操方案:用AI测算新品投放概率时,同步设置止损预算、小范围灰度测试,分阶段放量。
第一阶段:预算5%,验证数据与AI预测的一致性;
第二阶段:数据达标后扩至15%,持续监测偏差;
第三阶段:前两阶段通过后全量投放(比例可根据业务风险偏好调整)。明确区分AI建议和最终决策之间的责任边界。
3. 人的护城河不在于所有人,而在于少数人。
在这场人机大战中(联想天禧AI内部活动统计),总参与人数约28万,超过90%的人类用户同样押注巴西取胜。真正命中平局的约2.8万人,占比约10%。不止普通用户,各大体育媒体球评、专业足彩分析机构赛前研判也全部倾向巴西取胜。统计惯性对人类专业从业者同样具备强束缚力,人类整体预判翻车率和AI高度接近,不能只放大少数高手,忽略普通人一样被统计惯性束缚。
那些成功预测平局的冷门捕手,有人是因为记住了摩洛哥2022年连克西班牙、葡萄牙的铁血防守,有人是察觉到了内马尔伤缺的影响,有人则是凭借对摩洛哥巴西克星属性的记忆和对强队底蕴的质疑,跳出了强队必胜的框架。这说明AI无法替代的,不是普通人的判断,而是少数人基于碎片化信息的深度洞察。不是每个人都需要成为少数派,但组织需要为少数派保留通道。
实操方案:建立红队机制——指定专门团队在决策前寻找AI结论的漏洞,模拟“如果AI错了,会是因为什么”。季度战略会前,红队单独输出《AI结论失效风险清单》,纳入董事会必审材料。中小企业无需专职红队,可执行轮岗质疑制:每轮决策随机指派一名员工,专门输出AI结论的负面失效推演清单,低成本搭建异质性挑战通道。这不是要求每个人成为少数派,而是在组织中保留一个能够挑战共识的异质性通道。
![]()
四、结语
巴西被逼平,12家AI集体翻车。这是一个关于AI能行到哪一步的客观提醒。
从技术层面回到价值层面:AI的目标不是消除不确定性,而是帮助人类更好地与不确定性共处。清晰划定AI与人的分工边界,远比盲目全量依赖或全盘舍弃AI更关键。人负责判断与风险承担,AI负责信息检索与初步筛选——这才是当下最合理的分工边界。
短期无需等待下一代架构(如JEPA世界模型)成熟落地,产业已有成熟过渡手段:给通用大模型接入行业因果规则库、针对黑天鹅场景小样本微调;在AI输出模板里强制附带预测失效触发条件;固定红队专家校验流程,人工抬升伤病、突发政策、对手激进策略等小众变量权重,形成“算力统计+人工因果纠偏”的稳定模式。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论