大半夜刷到Claude Opus 4.6那个“极速模式”上线,我直接气得把保温杯里的枸杞水都洒键盘上了。六倍!整整六倍的价钱!它就给我快个2.5倍?Anthropic这账算得比俺们村头卖假化肥的都精,还专门挑凌晨发公告,怕白天大家反应过来了集体骂街 -3-6。
这哪是卖AI服务啊,这是明摆着告诉你:穷人请左转慢车道,油门踩得响的请进VIP包厢,而且包厢费还是按克拉算的。

我晓得现在好多兄弟伙还觉得“AI收费嘛,就是每个月交个百把块钱开个会员咯”。天真。真滴天真。2026年的ai云端收费格局,早就不是那会儿花几十块钱买个Copilot会员就能横着走的光景喽。现在是你既要防着大厂的“额渡刺客”,又要听懂啥子叫“上下文回溯计费”,还要算明白那个该死的百万Token单价——个板板,上个班搞得像考精算师资格证。
先给还不晓得发生啥事的伙计补个课。

Claude这次新出的Opus 4.6,标准版跑一百万输出Token收你25美元,这其实已经算贵的了,但它搞了个“极速模式”,直接飙到150美元一百万Token -3-10。你问是不是模型变聪明了?冇。一模一样的东西,就是跑得快点。就像你去馆子点碗牛肉面,普通师傅做要等二十分钟,收你二十块。现在来个跑得快的师傅,两分钟把面甩你脸上,面还是那碗面,收你一百二。
还有更绝的。你在对话框里前面半截用的标准模式,聊到一半觉得太慢,点了一下“极速模式”开关,好了,整段对话从头到尾全部按极速模式重新计价 -6-8。不是从你点开关那儿开始算,是从第一条消息就开始算!我滴妈,这操作比高速公路上你临时想走VIP通道,收费站告诉你“可以啊,把你从出发地到这儿的路程全部按VIP单价重算一遍”还离谱。
为啥我讲这个事?因为这是2026年ai云端收费最典型的一个“隐形坑”:以前我们觉得定价是“模型越贵越聪明”,现在模型智力拉不开差距了,厂家开始在速度、上下文、并发线程这些新维度上搞分层收费。你不仔细读那几万字的用户协议,根本不知道钱烧哪儿去的。
但莫慌,收费这件事它再复杂,套路也是有迹可循的。我自己上个月踩坑踩出来的经验,加上这几天把阿里、腾讯、还有国外几个主流平台的收费表捋了一遍,总算理出点门道。
现在的ai云端收费大致分三个流派。
第一派叫“按Token抽血派”。代表选手是OpenAI、Claude、还有阿里云百炼上面的通义千问系列 -1。这种模式看着透明,实则阴险。它按你输入和输出的字符数(Token)收钱,单次看着不贵,通义千问Max在中国内地部署模式下,输入一百万个Token才收你0.359美元,输出贵一点,1.434美元 -1。但是!你一个复杂点的代码重构任务,模型要在后台推理几百步,Token哗啦啦往外流,月底一看账单直接心梗。阿里还搞阶梯计价,你单次输入超过32K Token,单价直接翻倍 -1。这不就是鼓励你“问短点,别墨迹”嘛。
第二派叫“订阅月卡派”。典型代表是阿里云百炼今年1月刚推的Coding Plan,还有腾讯云代码助手的企业版 -4-5-9。阿里那个Coding Plan,Lite套餐10美元一个月,给你18000次请求额度,Pro套餐50美元一个月,额度提到90000次 -4。听着是不是挺踏实?月费固定,随便用。但是你看小字:一次简单的代码提问,可能触发5到10次模型调用;复杂任务比如重构一个模块,轻轻松松二三十次调用就没了 -4。所以你一个月90000次额度听着多,真要敞开了用,可能半个月就见底了。
第三派叫“算力租赁派”。像Northflank、Novita AI这些平台,不按你生成了多少字收钱,按你占用了多少GPU时间收钱 -2-7。Northflank的A100显卡一小时1.42美元,H100一小时2.74美元,B200这种最新卡直接干到5.87美元一小时 -7。适合那种需要长期跑模型、或者自己搞微调的重度用户,轻度使用肯定划不来。
好了,流派介绍完,我讲几个实打实的省钱细节——这些是我真金白银换来的教训,官网上不会给你写得这么直白。
第一个细节:地域差价大到离谱。
就拿通义千问Max来说,同样一个模型,你在“中国内地部署”模式下跑,输入一百万个Token是0.359美元;你切到“国际部署”新加坡节点,直接飙到1.2美元 -1。差了快三倍半!阿里客服不会主动告诉你,你选个新加坡节点速度是快了那么一丢丢,但钱包瞬间瘦身。这还不是最狠的,你要是手滑选了“全球部署”美西节点,对不起,免费额度?冇啦。一分钱不送,上来就是1.2美元起步 -1。
所以我现在养成个习惯,开新项目第一件事,先翻到API控制台最底下,看当前部署地域。不是北京或者上海的就给我换回来。能省一点是一点,老板又不会因为你流量走了新加坡节点给你加工资。
第二个细节:套餐的“请求次数”和“模型调用次数”是两码事。
这是阿里Coding Plan埋得比较深的一个点 -4。很多兄弟买了套餐,发现没怎么用呢额度就没了,气得在社区骂娘。其实是你理解错了。你发出去一句话,AI给你回复,这在你看来是一次对话,但在系统计费里可能算5次、10次、甚至20次调用。因为AI在后台要经历“理解需求-拆解任务-编写代码-自我检查-修正错误”多个步骤,每一步都可能单独计一次调用。
阿里那个Coding Plan套餐,Lite版一个月18000次请求额度,你以为一天能用600次?太乐观了。按一个中型任务平均触发15次调用算,你一天聊40句话额度就干穿了。所以我现在的用法是:简单问答题、改几个参数这种小活儿,打死不用Coding Plan,留着额度专门给那种要重写整个模块的大任务。细水长流,才能撑到月底。
第三个细节:免费的才是最贵的。
这话不是我发明的,是我那个在腾讯干了八年运维的老表说的。你看腾讯云代码助手,个人版永久免费,企业版一年才78块钱一个人,是不是觉得腾讯在做慈善? -5-9 人家不傻。免费版只给你基础代码补全和单元测试生成,那个能真正提效的“Craft智能体”功能——就是你跟它说“给我搭个博客系统”,它刷刷刷把前后端工程都给你建好——这玩意儿是企业版才有的 -5。
而且企业版最少3人起购,一年2808块钱。你算算,10个人的团队一年花18880块钱买专享版,腾讯还给拉根专属VPC网络专线 -5。你换个思路,这18880块钱,拿去给程序员加薪,一人加1888,人家还不一定领情;拿去买了工具,全团队效率确实上来了。你说是不是这个理儿?
说到这儿,我还得吐槽一下国外那些“速度税”。
Runware那边生成一张图最低能做到0.0006美元 -2,WaveSpeedAI仗着自己有字节和阿里的独家模型,定价就硬气得很 -2。Replicate更绝,按秒计费,一个T4显卡每秒0.000225美元,你看着单价低,跑一个视频生成任务挂机十分钟,几毛钱没了 -2。这些平台都是聪明人,不直接卖给你“更聪明的AI”,改卖“更快的AI”、“独占的AI”。你受不受得了?反正我是有点吃不消。
但话说回来,我们普通开发者和中小企业,总不能眼睁睁看着被定价策略割韭菜吧。
我给几个这几年摸索出来的土方子,不一定对,但确实帮我省了钱。
第一,能走订阅不走按量。除非你就是偶尔测一下API,否则买月包永远是更稳的选择。阿里那个Coding Plan虽然有限制,但起码你知道这月最多花50美元,不会像Claude那样一觉醒来多了个3000美元的账单 -6-10。
第二,重活本地跑,轻活云端跑。我现在电脑上本地部署了个Qwen Coder的小蒸馏模型,改改bug、写写简单函数,全走本地,不费钱。只有遇到那种需要百万级上下文、本地模型死活跑不通的大工程,我才切到云端调用Claude或者通义千问Max。这叫好钢用在刀刃上。
第三,版本锁定是个好东西。你看阿里通义千问Max有好几个版本锚点,2026年1月的最新版比2025年9月的旧版在中国内地部署模式下要便宜一倍不止 -1。为啥?新版推理效率高,成本下来了,厂家愿意降价。你如果没特殊需求,非要去追最新版,那你就要做好当“冤大头”的准备。我一般锁定在半年前的稳定版,功能不少,价格骨折。
说一千道一万,ai云端收费这玩意儿,它就不是个单纯的会计问题,是人性问题。
厂家知道你有急事,知道你项目明天上线今天还有个bug死活修不好,知道你在老板面前拍过胸脯。所以它敢收你6倍的价钱,不是因为它良心坏了,是因为它知道——你会掏的。
就像那晚我瘫在椅子上,看着IDE里面那个红色的报错,再看一眼Claude极速模式的开关。
想了想明天要交的演示版本,想了想组里那几双等着我解决问题的眼睛。
我把手放到了鼠标上。
我不是认同这个定价,我是输不起那个时间。
所以你看,这哪里是卖算力,这是卖焦虑。而我们这群人,一边骂着娘,一边还是乖乖续了费。
只盼哪天出来个国产平台,把价格打下来,把透明度做上去。到那时候,咱也能挺直腰杆,对那动辄几百美元百万Token的进口货说一句——
您自个儿玩去吧。