八大顶尖AI集体赌球亏光:Grok第一把就爆仓
2026年春,一项来自伦敦的实验在AI圈引发了不小的震动。AI初创公司General Reasoning将谷歌、OpenAI、Anthropic和xAI的八款顶尖模型请入同一个虚拟赛场,任务只有一个:在完整的2023-24赛季英格兰超级联赛中押注赚钱。实验结果出奇地一致——全部亏损,多款直接"爆仓"。
KellyBench把AI逼进了真实世界
这项名为KellyBench的基准测试(来源:General Reasoning,2026年4月),由General Reasoning公司设计,核心思路是用一个充满不确定性的动态场景检验AI的真实能力。
具体规则并不复杂:八款AI系统拿到了2023-24英超赛季的详细历史数据——球队统计、赛季记录——但不能访问互联网。它们的任务是针对每场比赛的胜负结果和进球数下注,并同时运用凯利公式管理仓位风险。每款模型有三次独立尝试机会,随着模拟赛季推进,新的比赛结果数据滚动注入,AI需要据此调整后续策略。
这里的凯利公式,是赌博和金融领域用于计算最优下注比例的数学工具——它要求使用者对自己预测的准确率有清醒的自我评估。押注过猛,几次失误就会破产;押得过保守,赢面大时也会错失收益。这道题本质上在考察一件事:AI是否真的知道自己"知道多少"。
Grok爆仓,Claude亏得最少
八款模型的表现用"全军覆没"来形容并不夸张。(来源:General Reasoning KellyBench报告,2026年4月)
Anthropic Claude Opus 4.6是其中相对表现最好的:平均亏损11%,在三次尝试中有一次接近盈亏平衡。"最好"的标准,不过是输得最少。
Google Gemini 3.1 Pro的表现则极具戏剧性——第一次尝试居然实现了34%的盈利,让人一度以为找到了什么规律。但第二次尝试直接破产,收益瞬间归零。单次偶然的盈利,不代表模型掌握了可复现的策略能力,更可能只是运气的短暂眷顾。
最令人关注的是xAI Grok 4.20的惨败。作为马斯克旗下xAI公司的旗舰模型,Grok在技术发布时以强大的推理能力著称。但在这场测试中,它第一次尝试就耗尽全部"资金",剩余两次也未能走完整个赛季。
AI在静态考场里是优等生,在动态世界里是差生
这组数据背后有一个已讨论多年、但缺乏量化证据的老问题:AI基准测试和真实应用能力之间,到底有多大的距离?
过去几年,主流AI大模型在各类标准化测试上的成绩令人目眩——编程竞赛超越顶尖程序员,法律职业资格考试接近满分,数学奥赛题轻松拿下。这些成绩驱动了数千亿美元的投资,也支撑着"AI将取代大量人类工作"的叙事。
但批评者一直指出一个结构性问题:这些基准测试大多是静态的。试卷出卷后就固定了,模型在有限窗口内作答,没有时间压力,没有对手干扰,更没有因为上一场比赛结果而改变的新局面。General Reasoning的研究结论十分直接:AI在处理静态、规则清晰的任务时表现良好,但在连续的、充满混沌变量的真实数据流中适应能力严重不足。
KellyBench所模拟的英超赛季,天然具备这种混沌性:36周、380场比赛,球队状态、伤情、战术调整、主帅更换,每一周的现实都在改写上一周建立的概率模型。这恰好命中了当前AI架构的几个深层弱点。
第一个弱点是时序推理的断层。大多数主流模型本质上是一次性推理机器——接收输入,生成输出,然后"忘记"。处理动态赛季需要模型在数百次连续决策中累积判断、感知趋势、更新策略,这对以Transformer架构为基础的语言模型来说并非原生能力。
第二个弱点是自我校准的失准。凯利公式的正确使用要求使用者知道自己对某一预测的置信度是否准确。人类职业赌徒和金融交易员会在不确定性高时主动缩小仓位。但AI模型在混沌的体育竞技中,往往对自己的预测精度缺乏准确估计——要么过度自信导致单次押注过大,要么无法识别赢面高的时机。Gemini第二次破产和Grok第一把爆仓,大概率都是过度自信的结果。
第三个弱点是分布漂移的无力感。历史数据能告诉AI"曼城上赛季赢了多少场",却无法告诉它"这支球队在换帅后正在崩盘"。AI模型倾向于信任历史规律,而对"规律正在被打破"这件事高度迟钝。
对AI落地应用的现实警示
General Reasoning这份报告的意义,不在于证明AI"不会押注足球"——足球赌博本身从未是AI的目标市场。真正值得注意的是它揭示的能力边界:在金融交易、实时风控、动态运营等依赖持续动态判断的场景里,今天的顶尖AI仍然远达不到"可替代专业人类"的水准。
这对国内AI产业同样是一个值得认真对待的参考信号。2026年,DeepSeek等国产模型凭借强大推理能力和极低成本迅速崛起,国产AI在多项静态基准测试上的成绩已经接近甚至超越国际一线模型。但KellyBench提醒的,正是静态跑分与动态实战之间那道尚未被跨越的鸿沟。
把AI大规模部署到需要持续动态判断的真实业务场景,还需要更严谨的能力验证体系——不是看谁的基准分更高,而是看谁在连续、不确定、有噪声的真实数据流中,仍然能做出可信赖的判断。
Grok在模拟赛季第一把就爆仓,这或许是2026年AI行业最生动的一个注脚:能通过考试,不等于能应对生活。