——从黄仁勋“五层蛋糕”到万亿Token时代的价值重构
2026年3月,英伟达GTC大会上,黄仁勋展示了一张名为“五层蛋糕”的PPT。这张图在随后的两个月里,几乎成了所有学者、企业家和官员阐释人工智能宏大叙事的开篇。
五层蛋糕的架构并不复杂:从下至上依次是能源、芯片、基础设施、大模型、应用。但真正让这套框架产生穿透力的,是一个贯穿所有层级的关键概念——Token(词元)。
一、Token是什么?从语义单元到AI“货币”
Token最初是美国哲学家皮尔士于1906年在符号学中引入的概念,用于表示符号的基本单位。在今天的AI语境中,Token是大模型处理信息的最小单元——“人工智能很强大”这句话,会被拆分为“人工”“智能”“很”“强大”四个Token。
但Token的意义远超语言学范畴。它同时具备三重属性:
信息量计量:每一次与AI的对话、AI生成的每一段内容,都以Token计量信息处理量。
算力消耗映射:大模型的每一步推理都需要消耗算力并生成对应Token,计算量≈2×模型参数量×Token数。
经济计价单位:全球绝大多数模型服务按输入/输出Token数量计费,Token已成为AI时代的“新货币”。
值得注意的是,Token不仅有数量要求,还有质量要求。高质量模型生成的Token在价值上显著高于低质量模型——就像九段棋手落下的每一步棋,与初学者的每一步不可同日而语。这也使Token与传统通信运营商的“流量”、电网的“度”有了本质区别:智能无法被简单量化。
二、从GPU小时到Token服务:一场商业模式的范式转移
理解了Token是什么,我们就能看清当前AI产业正在发生的深层变革。
过去,算力经济的衡量标尺是“GPU小时”——客户租用一张H100显卡,按每小时约3美元付费。这是一种资源租赁思维:卖的是硬件时间,客户关心的是“租了多少算力”。
但现在,行业正在向Token即服务(Token-as-a-Service,TaaS)转型。同样是那张H100显卡,如果用于运行一个中等规模的优化模型,每小时可生成约3000万可计费Token。按每百万Token收费1美元计算,这张卡每小时的收入潜力是30美元——是GPU小时模式的10倍。
更关键的是,两者的增长逻辑完全不同:
中国工程院院士郑纬民在近期演讲中一语道破趋势:“AI竞赛的核心标准正在从MaaS(模型即服务)向TaaS跃迁;从比拼算力集群规模,彻底转向比拼每瓦Token生产效率。”
三、能源天花板:Token经济的第一性原理
Token经济最深刻的洞见在于:算力最终受限于物理。
OpenAI前工程师Leopold Aschenbrenner在《Situational Awareness》报告中预测了一个惊人的路径:2024年全球最大大模型需要10万张GPU,2026年需要100万张,2028年需要1000万张,2030年需要1亿张。1亿张卡消耗的能源将占美国当前全年能耗的20%-25%——而这仅仅是一个单一大模型。
这种能源压力已经引发产业连锁反应。美国特朗普政府要求AI公司自行承担数据中心电力成本,自建发电资源;数据中心的备用电源方案被迫从SMR核反应堆(量产延期)转向燃气轮机,头部燃气轮机公司的产能已订到2033年以后。
一项更具理论深度的研究来自arXiv论文《Photons = Tokens》。该论文从Landauer原理出发,将Token定义为具有可测量热力学成本的物理量。计算显示:按当前效率,美国2028年AI能耗若达到326 TWh,可支撑约6.5×10¹⁷Token/年,相当于每人每天22.5万Token——约16.9万字,相当于“一天一本小说”。
Token的本质,是将电力转化为智能的过程。每一枚Token背后,都有真实的电子在流动。
四、中国速度:140万亿Token/日的爆发
中国的Token消耗曲线令人震撼。国家数据局最新数据显示:中国日均Token调用量已突破140万亿,两年增长超过1000倍。
更值得关注的是增长加速度。2026年2月起,Token消费量又增加了10到100倍,背后推手是智能体(Agent)的爆发。智能体需要围绕目标持续执行多轮链路,实际消耗的Token数量远超预期——中国工程院院士郑纬民称之为“100倍级别的膨胀”。
但与需求爆发形成对比的是供给侧的短板。郑纬民指出:“当前AI算力基础设施还无法高效生产Token;实际Token产能受限于系统优化不足,陷入高耗能、低产出的困局。”
解决方案指向“异构协同”——不能将所有负载压在最昂贵的GPU上,需将大模型参数合理分配至不同计算资源,实现计算、缓存、状态保存的职能分离。这与开放数据中心委员会提出的“从DC到Token”算力革命一脉相承。
五、未来展望:Token服务的分层化与金融化
Token经济正在向纵深演进。
郑纬民提出,Token服务需实现标准化、分层化与可调度化:极低时延型(实时交互)、均衡通用型(复杂推理)、高吞吐型(批量任务)三类服务按业务目标分层定价,这是Token服务走向基础设施的前提。
更进一步,arXiv论文《AI Token Futures Market》论证了Token作为大宗商品的属性,提出标准化Token期货合约设计。蒙特卡洛模拟显示,期货可降低企业算力成本波动的62%-78%。
Token正在重走电力、带宽、碳配额的历史轨迹——从技术服务演变为可交易的金融资产。
核心观点:
AI推理单价骤降280倍,总开支反增2.4倍——杰文斯悖论正重构经济格局。Token已超越计量单位,跃升为驱动全球新增长、重塑劳动力与地缘格局的"核心生产要素"。
1. 核心发现:成本越低,花费越多
本报告最为核心的发现,在于“杰文斯悖论”在AI算力领域得到了完美印证:
2. Token价值链全景:从芯片到应用
Token经济涵盖一条庞大的价值链,自底向上依次划分为五大环节:
硬件层:以英伟达等芯片厂商为代表,构成算力的物理根基。
基础设施层:提供算力集群与AI云服务,实现算力的规模化供给。
模型层:开发大模型的主体,代表企业包括OpenAI、Anthropic。
平台层:如OpenRouter,聚合多款模型并提供统一的API服务接口。
应用层:各类AI应用,是Token的最终消费者与需求端。
OpenRouter平台的Token处理量在3年内增长10倍,有力见证了应用层的爆发式扩张。
3. 对市场与劳动力的深远影响
Token经济的崛起正深刻重塑市场结构与劳动力格局:
4. 对中小创业者/从业者建议
常见问题解答(FAQ)
Q:报告里的“Token”到底是什么?
A:Token是AI模型处理自然语言的最小语义单元。简言之,输入或输出给AI模型的任意文本,均会被拆解为若干Token。调用AI模型的服务费用,正是依据所消耗的Token数量进行计量与结算。
Q:“杰文斯悖论”对AI行业意味着什么?
A:这意味着AI算力成本的下降非但不会引发行业收缩,反而将刺激需求呈爆炸式增长,最终推动总体支出持续攀升。这一趋势对芯片厂商与云服务商构成长期利好,同时也对应用层企业提出了“精细化管控Token成本”的更高能力要求。
Q:作为普通人,如何理解“Token经济”对生活的影响?
A:Token经济将如同历史上的电力一般,演化为一项基础服务。用户所使用的每一款AI应用,其背后均在持续消耗Token。未来个人或将拥有专属的“Token预算”,借助AI辅助完成工作、学习与创作。能否高效利用Token,将成为衡量数字素养的一项重要指标。
Q:中国在AI算力方面面临的主要挑战是什么?
A:核心挑战集中于高端芯片供给与先进制程工艺的突破。美国的技术封锁客观上正在加速中国自主可控的替代进程,但短期内,国内AI产业仍面临算力“卡脖子”的严峻制约。为此,需持续投入巨资建设国家级智算中心,并大力扶持以华为昇腾等为代表的国产芯片发展。
结语
Token经济的崛起,标志着AI产业价值锚点的根本转移。
过去,我们比拼谁拥有更多GPU、更大集群;现在,竞争焦点转向“每瓦能耗能产出多少高质量Token”。过去,商业模式停留在卖算力时间;现在,价值创造的核心是生成和处理Token的能力与效率。
正如开放数据中心委员会所言:“Token的流转规模深刻映射出智能经济的运行态势。高频、大规模的Token交互,能够直观反映全社会对人工智能服务的真实需求强度。”
当黄仁勋将Token定义为AI时代的“新货币”,他其实在说一件更根本的事:Token不仅是技术的计量单位,更是智能经济的新通货。这场从GPU小时到Token服务的变革,正在重塑整个AI产业的底层逻辑。而谁能以最低成本、最高效率生产高质量Token,谁就将成为智能经济时代的赢家。
参考文献
[1] 上证夜读|token经济学:从小龙虾到算力到能源,上海证券报,2026年5月
[2] 算力经济焕新行动:Tokenomics塑发展新引擎,开放数据中心委员会,2026年3月
[3] Building Token‑Metered AI Services on Telco AI Factories,NVIDIA Technical Blog,2026年5月
[4] Photons = Tokens: The Physics of AI and the Economics of Knowledge,arXiv,2026年2月
[5] 中国工程院院士郑纬民:从模型服务走向词元服务,凤凰网,2026年4月