近年来,国内云计算领域正逐渐步入一种被称为“算力通胀”的新时期。
4月15日,阿里云正式宣布,从7月15日起,其DDoS高防(中国内地)弹性95的费用将上调50%,即从每兆瓦月100元涨至150元。这已是阿里云在一个月内第三次调整价格。
这一价格上涨的潮流最初是由国际市场引发的。早在年初,亚马逊AWS就率先上涨了AI算力的价格,随之,谷歌云也跟进,部分价格上涨幅度甚至达到了100%。与此同时,腾讯云和百度智能云也纷纷提高了服务价格,腾讯云在4月9日宣布对AI算力、容器和EMR的费用上调5%;百度智能云则对AI算力与存储的上涨幅度在5%到30%之间。
推动价格上涨的深层原因,是Token消耗的迅猛增长。国家数据局局长刘烈宏在3月24日的新闻发布会上指出:“截至今年3月,我国的日均Token调用量已经超过140万亿,较2024年初的1000亿增长了逾1000倍,且与2024年底的100万亿相比,这三个月又增长了超过40%。”
国家数据局已正式将“Token”称为“词元”。它不仅是AI技术的计量单位,更在迅速演变为智能时代的新产业“货币”。Token的激增直接推动了算力需求的上升,从而引发云计算服务价格的上涨。
Token的热度还蔓延到了资本市场。去年年底在港交所上市的“Token第一股”迅策,仅用100天市值便突破了1000亿港元,年内涨幅高达547%。
港股的云计算巨头近期也迎来了股价的反弹。4月16日,百度集团股价上涨超过7%,阿里巴巴上涨近5%,腾讯控股上涨超过2%。
Token消耗的激增,成为这一波趋势的核心因素之一。根据OpenRouter平台的数据,在2026年的某一周内,约四分之一的Token消耗由OpenClaw贡献。此外,国金证券的数据显示,2026年3月9日至15日的周度数据中,OpenClaw贡献了20%的Token消耗,其单周Token消耗已相当于2025年第四季度全平台周均消耗的60%。
然而,Token的消耗剧增暴露了一个深层次的矛盾:消耗量的增长并不意味着智能水平的相应提升。智能体与传统Chatbot在业务逻辑上存在本质差异,传统Chatbot以单轮交互为主,而智能体则具备感知、决策和执行的闭环能力,需自主拆解复杂任务,进行多轮迭代验证。这种本质的差异直接导致了Token消耗量的显著放大。
这一问题在商业层面已经引起了明显矛盾。2026年4月初,Anthropic公司停止了订阅用户使用OpenClaw等第三方工具接入ClaudeAPI的权限。官方解释指出,部分重度用户每月支付的200美元订阅费,却消耗了价值5000美元的算力资源,造成了巨大的成本压力。
对于商业模式与智能体算力消耗现实之间的矛盾,市场已然显现出明确的风险。智能体场景中的Token消耗极具不确定性,固定的月费对这一无法准确预测的变量而言,往往难以建模。
根据火山引擎总裁谭待的观察,目前90%以上的Token消耗都是无效的探索。他指出,许多用户反馈智能产品Token消耗的速度快,核心问题在于在完成任务时的耗费,许多Token被用于无效的尝试。由于现阶段技术尚未完备,最终解法的追求导致了巨大的资源浪费。
这一现象表明,智能体的普及正在以超预期的速度消耗算力资源,而现有的计费体系与效率管理机制仍然需要进一步完善。
最近,小米集团MiMo负责人罗福莉在社交网络上发文指出,从宏观层面看,全球计算资源的增长速度已无法满足Agent所带来的Token需求。未来的出路不在于提供便宜的Token,而在于让“更高效的Agent框架”与“更强大且高效的模型”并行进化。
当前,算力依然稀缺。
如今,推理正在逐渐取代训练成为算力消耗的主要领域。《2026科技、传媒和电信行业预测》报告显示,预计到2026年,AI推理将占据算力的三分之二,主要依托于新建的数据中心与企业服务器。
随着推理算力需求的上升,其竞争规则也在悄然改变。单Token成本、部署密度和能效比等因素开始取代单纯的峰值算力,成为客户选择时的重要考虑标准。
与此同时,算力供给的结构性缺口正日益扩大。据半导体研究机构SemiAnalysis发布的数据,H100一年期租赁合同的价格从2025年10月的低点1.70美元/小时/GPU暴涨至2026年3月的2.35美元/小时/GPU,涨幅接近40%。尽管价格上扬,相关的GPU租赁容量却已全部售罄,2026年初寻求新的GPU算力资源的难度被形容为“预定最后一班航班的机票”。
GPU并非唯一紧张的 sprzęt。2026年3月下旬,英特尔与AMD也纷纷通知客户上调处理器价格。近几个月来,CPU作为AI服务器的核心组件被大量采购,二者的服务器CPU产能基本售罄。
在此背景下,头部互联网公司的资本支出显著增加。财报数据显示,腾讯的资本支出在2024年迅猛增长至768亿元,同比增长221%;阿里巴巴在2025年的资本支出将超过1000亿元,较2023年增长显著。同时,字节跳动的资本支出计划约为1600亿元,约一半将投向AI芯片和数据中心。
算力紧张的另一面是,中国AI芯片市场的格局正在经历深刻变革。据IDC预测,2025年中国市场的AI加速卡出货量将达到约400万张,其中英伟达占有55%的市场份额,而中国本土厂商的市占率亦逐步提升。
在本土厂商中,华为处于领先地位,预计到2025年,华为出货量将达到约81.2万颗AI芯片,占整体市场的20%。阿里巴巴的平头哥和百度的昆仑芯、寒武纪等也在市场中占据了一席之地。
中信证券指出,Agent和多模态等应用的爆发驱动了Token调用量的激增,从而导致国内算力短缺。国产大模型在推理端的积极适配,恰好为国产算力厂商提供了加速发展的机遇,预计到2026年,国产算力芯片的出货量将翻番。
本土厂商的崛起,正在逐步改变中国AI芯片市场的供给模式,为解决算力不足提供了新的可能性。
商业模式的重构是Token经济最后一块拼图。
当Token消耗量从万亿级迈向百万亿级,如何进行定价和收费,直接关系到整个产业的商业闭环能否畅通。回顾行业发展轨迹,自2024年下半年至2025年初,中国大模型市场陷入了激烈的价格战。
但到2026年,这种格局有了根本变化。在这一年中,智谱成为首个在推出新模型时大幅提价的国产头部模型厂商。例如,发布GLM-5时,CodingPlan套餐价格上调30%以上,随后再次上涨20%,相对GLM-4的累计涨幅达到了83%。
值得注意的是,尽管涨价,需求却并未减弱。智谱的数据显示,2026年一季度API调用定价提升了83%,但调用量依然增长了400%。截至2026年3月,其平台注册用户已突破400万,覆盖全球218个国家。智谱的CEO表示,技术实力决定了市场定价的主导地位。
如今,Token计费已经成为行业标准。在中国发展高层论坛年会上,国家数据局局长刘烈宏指出,一种以Token为基础的新型商业逻辑正加速演进,一套新价值体系围绕Token的调用、分发与结算正在形成。
然而,Token定价所面临的真正挑战在于其消费方式高度不可预测。
与传统生产要素不同,Token具有独特的可编程性。英伟达创始人兼CEO曾指出,Token不仅是现代AI的基本单位,还充当价值流通的媒介。
谭待还提到,业内的现状可以通过跟踪未来Tokens能够产生多少收入来判断。当前,全球行业的实际收入估计是OpenAI与Anthropic等企业收入的三倍。
总体来看,AI算力和Token经济仍处于早期阶段,定价机制、效率管理和供给能力等方面仍有巨大的提升潜力。
(声明:文章内容仅供参考,不构成投资建议。以上信息由投资者自行判断。)



