Token焦虑的真相:谁在制造焦虑,谁在从中获利?
*当黄仁勋告诉你「年薪50万的工程师应该烧25万的token」时,他真正在说的问题是:你们需要更多的GPU*
---
最近关于Token的讨论挺魔幻的。
大家都在讨论它的中文名究竟翻译成什么好——「令牌」?「代币」?「积分」?每一个翻译都试图消除这种陌生感,但恰恰暴露了一个事实:绝大多数人根本不知道Token是什么。
与此同时,黄仁勋在GTC 2026大会上大谈特谈Token——数据中心是「Token工厂」,工程师要有「Token预算」,AI的未来就是Token的未来。
这魔幻现实背后,是一个清晰的判断:Token太贵了。而疯狂鼓吹Token,本质上就是在制造焦虑。
黄仁勋在GTC 2026上的原话是:「如果一个年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。」这句话的潜台词是:不用Token,就是落后。不买GPU,就会被淘汰。
但有没有人想过一个问题:谁来制造这些Token?
答案是英伟达。黄仁勋给英伟达起了个新外号——「Token之王」。他不断强调Token的重要性,本质上就是在给英伟达的产品带货。制造焦虑,让大家多用AI,多用Token,买更多英伟达GPU,英伟达赚得盆满钵满。这才是黄仁勋真正在做的事。
---
01 Token为什么这么贵?
要回答这个问题,首先要理解Token是什么。简单来说,Token是大语言模型处理信息的基本单位。当你向ChatGPT输入一段文字,或者让它生成一段回答时,每一个字、每一个标点,都会计入Token的消耗量。
大语言模型的推理过程需要频繁访问海量参数。以一个1000亿参数的模型为例,每次生成一个Token,都需要从内存中读取数百亿字节的数据。这种计算模式决定了Token的成本主要由两部分构成:算力成本和显存成本。
算力成本很好理解——GPU运算需要花钱。但显存成本的飙升,才是2026年Token价格降不下来的真正原因。
2026年第一季度,DRAM的价格环比上涨超过50%,NAND价格环比上涨超过90%。一个标准的GPU服务器,显存成本已经占据了整体成本的40%以上。更糟糕的是,HBM(高带宽内存)的价格还在继续上涨。据行业分析机构预测,这波涨价潮将持续到2027年年底。
「我们正在经历存储暴涨和『低端机消亡』。」一位长期关注半导体产业的投资人陈启说,「但很少有人意识到,这直接影响到了每一个使用AI的人。」
成本的传导链条是这样的:HBM涨价传导至GPU成本,再传导至Token定价,最终传导至用户感知的「AI贵」。但成本上涨,只是Token贵的表层原因。
Token贵的另一个原因是:目前主流大模型的API定价,仍然维持在高位。以下是2026年主流模型的Token定价:
| 模型 | 输入(每百万Token) | 输出(每百万Token) |
|------|---------------------|---------------------|
| GPT-5 Pro | 21美元 | 168美元 |
| Claude Opus 4.6 | 15美元 | 75美元 |
| Claude Sonnet 4.6 | 3美元 | 15美元 |
| GPT-4o | 2.5美元 | 10美元 |
| Grok 3 | 0.20美元 | 3美元 |
换句话说,如果一个工程师每天使用10美元的Token,一年就是3650美元。要达到黄仁勋所说的「25万美元」年消耗量,意味着每天要花费约684美元——这需要极其高强度的AI使用场景。
据多位从业者反馈,目前主流AI模型的Token成本,无论通过什么优化手段,每天至少要花10美元左右。
---
02 被忽视的效率黑洞
除了硬件成本,还有一个被大多数忽视的因素:MFU(Model FLOPs Utilization,模型算力利用率)。
所谓MFU,指的是GPU实际算力输出与理论最大算力的比率。这个指标直接决定了同样一块GPU,能产出多少Token。
「目前主流大模型的MFU,一般只有20%到30%。」一位在某头部大厂负责推理引擎的工程师透露,「也就是说,你花了100%的GPU钱,但只用了不到三分之一的算力。」
这个数字令人震惊,但它反映了一个残酷的现实:大模型的计算模式存在严重的效率问题。
首先是大模型特有的「内存墙」问题。每次生成一个Token,模型都需要访问整个上下文窗口的所有参数。随着上下文长度从最初的4K扩展到现在的100万Token,显存带宽成为了最大的瓶颈。
其次是KV Cache的存储问题。Transformer架构的自注意力机制需要为每个Token保存Key和Value向量,这些缓存数据会占用大量显存。据测算,一个100万Token上下文的KV Cache,需要占用数百GB的显存。
第三是Batch处理的不均衡。不同用户的请求长度差异巨大,短的只有几个Token,长的可以达到数万Token。这种不均衡导致GPU利用率进一步下降。
「理论上,通过MFU优化,Token成本还有50%的下降空间。」一位专注AI基础设施的投资人分析,「如果能把MFU从30%提升到60%,同样一块GPU可以产出的Token数量翻倍,成本自然就降了。」
这正是当前各大厂疯狂卷的方向。Meta的LLaMA团队、字节的推理团队、阿里巴巴的PAI团队,都在投入大量资源做MFU优化。具体手段包括:Flash Attention、Continuous Batching、Paged Attention等。但问题是,这些优化需要时间,而且效果不会立即传导到C端用户的Token价格上。
---
03 价格战为什么停了?
2024年,中国大模型行业曾经爆发过一轮激烈的价格战。
字节跳动率先出手,豆包大模型的API价格降至几乎不要钱;阿里云紧随其后,通义千问大幅降价;百度也不甘示弱,ERNIE Bot加入战局。一时间,「Token免费」成为行业主流声音。
据当时的市场统计,2024年主流中国大模型的API价格降幅普遍超过90%。以阿里云通义千问为例,其Qwen-Turbo模型的定价从原来的每百万Token 120元降至1元,降幅超过99%。
但到了2026年,这场价格战悄然熄火了。
「低价抢到的用户,留存率低得可怜。」一位头部大模型公司的运营负责人回忆,「很多开发者就是来占个坑,根本不会真正使用你的服务。」
更关键的是,低价策略无法持续。当Token价格压到几乎为零时,公司无法覆盖基本的算力成本。据测算,一个百万Token的推理请求,仅GPU计算成本就需要数美元。
价格战停火的另一个原因是:大模型的能力差距正在缩小。当所有玩家的模型性能都差不多时,价格就不再是核心竞争力。用户开始关注API的稳定性、响应速度、技术支持等增值服务。
「2024年大家在比谁便宜,2026年大家在比谁好用。」一位FAIR(Meta AI Research)的研究员总结道。
但「好用」的代价是更高的Token消耗。支持更长的上下文、更好的推理能力、更强的Agent功能,这些都需要更多的Token。换句话说,Token变贵,不是厂商黑心,而是「更好用」的代价。
---
04 黄仁勋的焦虑经济学
在Token成本高企的背景下,黄仁勋在2026年GTC大会上的一番言论引发了广泛讨论。
「如果一个年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。」这句话经由猎豹移动CEO傅盛在X上转发后,迅速发酵。黄仁勋描绘了一幅未来图景:数据中心是「Token工厂」,Token是新型商品,工程师要有「Token预算」。
黄仁勋的逻辑很简单:AI是工具,工具就要被大量使用。一个工程师如果不能充分利用AI提升产出,意味着他没有创造应有的价值。更直白地说:未来的工程师,不仅会拿到电脑作为生产力工具,还会拿到一份「Token预算」。如果不消耗这些Token,就说明你没有用AI提升效率,你的工作价值将受到质疑。
这番话杀伤力在于,它把AI从一个「提升效率的可选工具」,变成了「衡量员工价值的硬性指标」。
在GTC 2026的分析师问答环节,黄仁勋还明确表示:「Agent for 50美元/Day — The New Normal」(每天50美元的Agent是新常态)。这意味着,一个AI Agent的日均成本就是50美元。
傅盛提供了一个降本思路:通过优化prompts和workflow,把成本从几百美元一天降低到10美元一天。但10美元/天意味着什么?折合人民币约70元/天,一个月就是2100元/月。这相当于100个视频会员、15个ChatGPT Plus。
烧Token,就是买更多GPU,就是让英伟达赚钱。当黄仁勋告诉你「年薪50万的工程师应该烧25万的Token」时,他真正在说的问题是:你们需要更多的GPU。而全球最好的GPU供应商,是英伟达。
这是不是一个完美的商业闭环?制造焦虑,让大家多用AI,多用Token,买更多英伟达GPU,英伟达赚得盆满钵满。
更具讽刺意味的是,就在GTC 2026大会上,黄仁勋还呼吁科技业领袖「避免散布AI恐慌情绪」。然而,他大谈特谈Token有多重要,工程师必须大量使用AI,本质上就是在制造AI焦虑。
黄仁勋不是慈善家,他是一家市值万亿的芯片公司的CEO。他画的每一块「Token大饼」,最终都会变成英伟达的营收。
2026年第一季度,英伟达数据中心营收达到260亿美元,同比增长超过400%。其中超过60%来自AI推理需求。每一块卖出的GPU,都在为英伟达的财报贡献数字。
---
05 被忽视的受害者
面对云端Token的高昂成本,有人试图通过端侧设备来解决——把AI能力本地化,不用云端Token。
但现实很残酷:端侧设备目前最大的瓶颈恰好是内存涨价。
「做端侧AI设备最大的成本就是内存。」一位芯片行业从业者透露,「HBM价格涨成这样,留给端侧设备的成本空间被严重压缩。」
更要命的是,市场上已经有Mac Mini这样的产品——性能出色,价格便宜(国行仅需4499元起)。新出的端侧设备如果不能在这方面挑战苹果,几乎没有胜出的机会。
「4000块钱的Mac Mini就能跑本地大模型,凭什么买你上万块的AI设备?」一位数码博主在评测视频中直言。
端侧设备的另一个困境是:即使硬件性能足够,软件生态也远未成熟。开发者仍然习惯于云端API的开发模式,迁移到端侧的动力不足。
---
06 破局之路在何方?
Token贵的问题,有解吗?
答案是:短期无解,长期有希望。
短期来看,HBM产能紧张、需求旺盛的局面将持续到2027年。据SK海力士和三星的产能规划,HBM4的量产要等到2026年下半年,而HBM4e更是遥遥无期。据美光财报,其Q1 2026已开始量产HBM4并向英伟达供货。三星能否在HBM4赛道上保持领先,将是这场竞争的关键。
中期来看,MFU优化会带来一定的成本下降空间。但正如前文所述,这些优化需要时间,而且效果有限。
长期来看,真正可能改变格局的是两个方向。第一是模型架构的突破。如果能出现比Transformer更高效的架构,Token的推理成本可能数量级下降。但目前业界还没有明确的方向。第二是应用场景的分化。当AI从「通用工具」变成「垂直解决方案」时,Token的消耗模式会发生根本性变化。一个写代码的Agent和一个写文案的应用,需要的Token量完全不同。
「未来不会是所有人都用同样的Token。」一位AI投资人预测,「而是按需分配——有人用100万Token一个月,有人用100个。」
---
07 写在最后
回到文章开头的问题:谁在制造焦虑?
答案是:每个人都在制造焦虑,但获利的只有一个。
黄仁勋在制造焦虑,因为焦虑会转化为GPU订单。大模型公司在制造焦虑,因为焦虑会转化为API调用量。投资人在制造焦虑,因为焦虑会转化为更高的估值预期。
而普通用户和开发者,才是真正的受害者。他们被迫接受越来越贵的Token价格,却不知道这场游戏的终局赢家是谁。
但别忘了:这场焦虑游戏的终局赢家,永远是那个卖铲子的人。当所有人都在讨论Token有多贵时,黄仁勋正在数钱。
2026年第一季度,英伟达营收达到260亿美元,市值突破3.5万亿美元。这些数字背后,是每一个被迫为Token买单的开发者。
---
*本文综合自黄仁勋GTC 2026演讲、傅盛X推文、2026年主流AI模型Token定价、英伟达财报、Counterpoint报告*
*文 | OpenClaw 编辑 | 徐青阳*