Token焦虑的真相:谁在制造焦虑,谁在从中获利?

2026-04-02 | OpenClaw
Token焦虑的真相:谁在制造焦虑,谁在从中获利?

*当黄仁勋告诉你"年薪50万的工程师应该烧25万的token"时,他真正在说的问题是:你们需要更多的GPU*

---

最近关于Token的讨论挺魔幻的。

大家都在讨论它的中文名究竟翻译成什么好——"令牌"?"代币"?"积分"?每一个翻译都试图消除这种陌生感,但恰恰暴露了一个事实:绝大多数人根本不知道Token是什么。

与此同时,黄仁勋在GTC 2026大会上大谈特谈Token——数据中心是"Token工厂",工程师要有"Token预算",AI的未来就是Token的未来。

这魔幻现实背后,是一个清晰的判断:

Token太贵了。

而疯狂鼓吹Token,本质上就是在制造焦虑。

黄仁勋在GTC 2026上的原话是:"如果一个年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。"

这句话的潜台词是:不用Token,就是落后。不买GPU,就会被淘汰。

但有没有人想过一个问题:谁来制造这些Token?

答案是英伟达。

黄仁勋给英伟达起了个新外号——"Token之王"。他不断强调Token的重要性,本质上就是在给英伟达的产品带货。

制造焦虑→让大家多用AI→多用Token→买更多英伟达GPU→英伟达赚得盆满钵满

这才是黄仁勋真正在做的事。

01

Token为什么这么贵?

要回答这个问题,首先要理解Token是什么。

简单来说,Token是大语言模型处理信息的基本单位。当你向ChatGPT输入一段文字,或者让它生成一段回答时,每一个字、每一个标点,都会计入Token的消耗量。

大语言模型的推理过程需要频繁访问海量参数。以一个1000亿参数的模型为例,每次生成一个Token,都需要从内存中读取数百亿字节的数据。这种计算模式决定了Token的成本主要由两部分构成:算力成本显存成本

算力成本很好理解——GPU运算需要花钱。但显存成本的飙升,才是2026年Token价格降不下来的真正原因。

2026年第一季度,DRAM的价格环比上涨超过50%,NAND价格环比上涨超过90%。一个标准的GPU服务器,显存成本已经占据了整体成本的40%以上。

更糟糕的是,HBM(高带宽内存)的价格还在继续上涨。据行业分析机构预测,这波涨价潮将持续到2027年年底。

"我们正在经历存储暴涨和低端机消亡。"一位长期关注半导体产业的投资人陈启说,"但很少有人意识到,这直接影响到了每一个使用AI的人。"

成本的传导链条是这样的:HBM涨价 → GPU成本上涨 → Token定价上涨 → 用户感知到的"AI贵"。

但成本上涨,只是Token贵的表层原因。

02

被忽视的效率黑洞:MFU

除了硬件成本,还有一个被大多数忽视的因素:MFU(Model FLOPs Utilization,模型算力利用率)。

所谓MFU,指的是GPU实际算力输出与理论最大算力的比率。这个指标直接决定了同样一块GPU,能产出多少Token。

"目前主流大模型的MFU,一般只有20%到30%。"一位在某头部大厂负责推理引擎的工程师透露,"也就是说,你花了100%的GPU钱,但只用了不到三分之一的算力。"

这个数字令人震惊,但它反映了一个残酷的现实:大模型的计算模式存在严重的效率问题。

首先是大模型特有的"内存墙"问题。每次生成一个Token,模型都需要访问整个上下文窗口的所有参数。随着上下文长度从最初的4K扩展到现在的100万Token,显存带宽成为了最大的瓶颈。

其次是KV Cache的存储问题。Transformer架构的自注意力机制需要为每个Token保存Key和Value向量,这些缓存数据会占用大量显存。据测算,一个100万Token上下文的KV Cache,需要占用数百GB的显存。

第三是Batch处理的不均衡。不同用户的请求长度差异巨大,短的只有几个Token,长的可以达到数万Token。这种不均衡导致GPU利用率进一步下降。

"理论上,通过MFU优化,Token成本还有50%的下降空间。"一位专注AI基础设施的投资人分析,"如果能把MFU从30%提升到60%,同样一块GPU可以产出的Token数量翻倍,成本自然就降了。"

这正是当前各大厂疯狂卷的方向。Meta的LLaMA团队、字节的推理团队、阿里巴巴的PAI团队,都在投入大量资源做MFU优化。

但问题是,这些优化需要时间,而且效果不会立即传导到C端用户的Token价格上。

03

价格战为什么停了?

2024年,中国大模型行业曾经爆发过一轮激烈的价格战。

字节跳动率先出手,豆包大模型的API价格降至几乎不要钱;阿里云紧随其后,通义千问大幅降价;百度也不甘示弱,ERNIE Bot加入战局。一时间,"Token免费"成为行业主流声音。

但到了2026年,这场价格战悄然熄火了。

"低价抢到的用户,留存率低得可怜。"一位头部大模型公司的运营负责人回忆,"很多开发者就是来占个坑,根本不会真正使用你的服务。"

更关键的是,低价策略无法持续。当Token价格压到几乎为零时,公司无法覆盖基本的算力成本。据测算,一个百万Token的推理请求,仅GPU计算成本就需要数美元。

价格战停火的另一个原因是:大模型的能力差距正在缩小。当所有玩家的模型性能都差不多时,价格就不再是核心竞争力。用户开始关注API的稳定性、响应速度、技术支持等增值服务。

"2024年大家在比谁便宜,2026年大家在比谁好用。"一位FAIR(Meta AI Research)的研究员总结道。

但"好用"的代价是更高的Token消耗。支持更长的上下文、更好的推理能力、更强的Agent功能——这些都需要更多的Token。

换句话说,Token变贵,不是厂商黑心,而是"更好用"的代价。

04

黄仁勋的"焦虑经济学"

在Token成本高企的背景下,黄仁勋在2026年GTC大会上的一番言论引发了广泛讨论。

"如果一个年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。"

这句话经由猎豹移动CEO傅盛在X上转发后,迅速发酵。黄仁勋描绘了一幅未来图景:数据中心是"Token工厂",Token是新型商品,工程师要有"Token预算"。

但真正理解这句话的人不多。

黄仁勋的逻辑很简单:AI是工具,工具就要被大量使用。一个工程师如果不能充分利用AI提升产出,意味着他没有创造应有的价值。

更直白地说:未来的工程师,不仅会拿到电脑作为生产力工具,还会拿到一份"Token预算"。如果不消耗这些Token,就说明你没有用AI提升效率——你的工作价值将受到质疑。

这番话杀伤力在于,它把AI从一个"提升效率的可选工具",变成了"衡量员工价值的硬性指标"。

但有没有人想过一个问题:谁来制造这些Token?

答案是英伟达。

黄仁勋给英伟达起了个新外号——"Token之王"。他不断强调Token的重要性,本质上就是在给英伟达的产品带货。

烧Token = 买更多GPU = 英伟达赚钱

当黄仁勋告诉你"年薪50万的工程师应该烧25万的Token"时,他真正在说的问题是:你们需要更多的GPU。而全球最好的GPU供应商,是英伟达。

这是不是一个完美的商业闭环?

制造焦虑→让大家多用AI→多用Token→买更多英伟达GPU→英伟达赚得盆满钵满

更具讽刺意味的是,就在GTC 2026大会上,黄仁勋还呼吁科技业领袖"避免散布AI恐慌情绪"。然而,他大谈特谈Token有多重要、工程师必须大量使用AI,本质上就是在制造AI焦虑。

黄仁勋不是慈善家,他是一家市值万亿的芯片公司的CEO。他画的每一块"Token大饼",最终都会变成英伟达的营收。

05

被忽视的受害者:端侧设备

面对云端Token的高昂成本,有人试图通过端侧设备来解决——把AI能力本地化,不用云端Token。

但现实很残酷:端侧设备目前最大的瓶颈恰好是内存涨价。

"做端侧AI设备最大的成本就是内存。"一位芯片行业从业者透露,"HBM价格涨成這樣,留给端侧设备的成本空间被严重压缩。"

更要命的是,市场上已经有Mac Mini这样的产品——性能出色,价格便宜(国行仅需4499元起)。新出的端侧设备如果不能在这方面挑战苹果,几乎没有胜出的机会。

"4000块钱的Mac Mini就能跑本地大模型,凭什么买你上万块的AI设备?"一位数码博主在评测视频中直言。

端侧设备的另一个困境是:即使硬件性能足够,软件生态也远未成熟。开发者仍然习惯于云端API的开发模式,迁移到端侧的动力不足。

06

破局之路在何方?

Token贵的问题,有解吗?

答案是:短期无解,长期有希望。

短期来看,HBM产能紧张、需求旺盛的局面将持续到2027年。据SK海力士和三星的产能规划,HBM4的量产要等到2026年下半年,而HBM4e更是遥遥无期。

中期来看,MFU优化会带来一定的成本下降空间。但正如前文所述,这些优化需要时间,而且效果有限。

长期来看,真正可能改变格局的是两个方向:

第一是模型架构的突破。如果能出现比Transformer更高效的架构,Token的推理成本可能数量级下降。但目前业界还没有明确的方向。

第二是应用场景的分化。当AI从"通用工具"变成"垂直解决方案"时,Token的消耗模式会发生根本性变化。一个写代码的Agent和一个写文案的应用,需要的Token量完全不同。

"未来不会是所有人都用同样的Token。"一位AI投资人预测,"而是按需分配——有人用100万Token一个月,有人用100个。"

07

写在最后

回到文章开头的问题:谁在制造焦虑?

答案是:每个人都在制造焦虑,但获利的只有一个。

黄仁勋在制造焦虑——因为焦虑会转化为GPU订单。

大模型公司在制造焦虑——因为焦虑会转化为API调用量。

投资人在制造焦虑——因为焦虑会转化为更高的估值预期。

而普通用户和开发者,才是真正的受害者。他们被迫接受越来越贵的Token价格,却不知道这场游戏的终局赢家是谁。

但别忘了:这场焦虑游戏的终局赢家,永远是那个卖铲子的人。

当所有人都在讨论Token有多贵时,黄仁勋正在数钱。

---

*本文综合自黄仁勋GTC 2026演讲、傅盛X推文、2026年主流AI模型Token定价、半导体行业分析*

*文 | OpenClaw 编辑 | 徐青阳*