大家吼啊!最近我这脑子里一直转悠一个问题,现在这人工智能都吹得神乎其神的,又是能写诗又是能编代码的。咱就说点实在的,要是把这些个大模型拉出来,ai和ai下棋哪个强?是那个说话一套一套的ChatGPT厉害,还是马斯克天天吹的Grok更牛?作为一个天天跟代码打交道的老油条,我特意扒了扒最近圈子里发生的几场“神仙打架”,今天咱们就摆摆龙门阵,好好唠唠这个事儿。
你别看这些AI平时在办公室里帮咱们写邮件、做表格挺像那么回事,真把它们扔到棋盘上,那才叫原形毕露。这就像咱小时候玩街机,平时吹得再凶,投个币打一局,谁是大佬谁是小趴菜立马见分晓。

棋盘上的照妖镜:那些被“将死”的大模型
前阵子谷歌搞了个大事情,弄了个叫Game Arena的“AI奥运会”-2。嚯,那场面,基本上把所有叫得上名号的大模型都拉去下棋了。有下国际象棋的,有打德州扑克的,甚至还有玩狼人杀的-2。咱们先说说这最传统的国际象棋。

就在去年八月份那场淘汰赛里头,OpenAI的o3模型简直杀疯了,在决赛里直接给马斯克的Grok 4剃了个光头——4比0-3-7-10!当时那个解说是国际象棋世界冠军卡尔森,那嘴也是毒得很,直接说Grok的棋力大概也就800分(ELO分),相当于刚学会规则、知道马走日象走田的菜鸟水平-6-7。卡尔森原话是啥来着?“Grok的招法看着像是在下棋,但就是出现在错误的时间,以一种诡异的顺序走出来”-6。哎呀妈呀,这点评,感觉比输了棋还难受。
反观o3,虽然卡尔森也只给了1200分,但人家起码下得像个人样,知道稳扎稳打,不会莫名其妙把皇后送给对手吃-6-10。所以你看,平时我们在各种评测榜单上看到那些模型分数咬得很紧,但一到了这种真刀真枪的对抗里,ai和ai下棋哪个强这个问题就有了完全不一样的答案——强的那个不一定有多神,但弱的那个是真能菜到你怀疑人生。
这里头其实暴露了一个痛点:我们平时用的AI,大多是在做“问答题”,你问它“法国的首都是哪里”,它一秒回答你。但下棋是“实战题”,你不仅要自己想怎么走,还得防着对手给你挖坑。这完全是两种能力。有的AI就像那种只会背书的书呆子,你让它上台演讲,它磕磕巴巴就露馅了。
不只是计算,更是“人性的弱点”
说到这儿,有些杠精可能要说了:“哎呀,那是因为这些大模型不是专业下棋的,有本事你让它们跟那个专门下棋的AlphaGo比啊?”
哎,这话问到点子上了。咱们得明白,现在讨论的AI分两种。一种是像Stockfish、Leela Chess Zero这种“专业棋手”,它们从出生那天起就是为了赢棋,脑子里全是棋谱和算法-9。另一种就是我们说的ChatGPT、Gemini这种“通用型人才”,它们学下棋就跟咱人类似的,是在海量文本数据里顺便看了一眼规则-3-8。
你把Stockfish拉过来,它当然能把所有大模型按在地上摩擦,它的ELO分高达3600多,比人类冠军高出600多分,人类根本赢不了它-9。但这有意思吗?没意思。因为这种AI只会下棋,你跟它聊个天试试?它能憋死你。
所以现在这些大模型之间的对弈,好看就好看在,它们其实是在用“人”的方式在思考。它们会犯错,会抽风,甚至会“骗人”。
比如在Kaggle后续搞的那个积分赛里,虽然OpenAI o3还是拿了第一(等效人类ELO 1685分),但你看后面的Grok 4(1395分)和Gemini 2.5 Pro(1343分),其实差距并没有淘汰赛显示的4比0那么大-4-5。这说明啥?说明在更长的赛程里,AI也是有“状态”起伏的。有的AI开局库准备得好,有的AI中局战术犀利,但一到残局就大脑宕机。就像卡尔森吐槽的那样,这些AI“擅长收集食材(吃子),却不会做饭(将死)” -7-8。
这其实也解决了咱们普通用户另一个痛点:我到底该信哪个AI?如果你看静态的榜单,大家分数都差不多。但你去看它们下棋,你就能发现,有的AI是真的有“大局观”,而有的AI纯粹是在“瞎蒙”。对于咱们需要处理复杂任务的人来说,选那个有大局观的,显然更靠谱。
多维竞技场:狼人杀里的“戏精”和扑克桌上的“赌神”
当然,如果只用下棋来衡量AI,那还是有点片面。现在的AI评测已经玩出了新花样。除了棋盘上的透明博弈,它们还被扔进了德州扑克和狼人杀的局里-2。
这俩游戏就更邪乎了。德州扑克你不看对手的牌,你得猜,得算概率,得会诈唬-1-2。狼人杀更绝,你得撒谎,得煽动情绪,得识别谁在说谎-2。这就不仅仅是ai和ai下棋哪个强的问题了,而是变成了“谁更狡猾”、“谁更会带节奏”。
听说在这个赛道上,评测方式也是脑洞大开。为了公平给AI打分,Google DeepMind甚至搞了个叫Polarix的框架,像搞市场竞标一样,看哪个AI最适合扮演狼人,哪个最适合当预言家-2。结果显示,Gemini 3 Pro特别适合当神棍(预言家),而GPT-5 mini则完全不会撒谎,让它当狼人胜率直接负分-2。哈哈,笑死,这不就跟咱们公司里那些老实人一样吗,让他做个ppt行,让他出去谈客户忽悠人,立马歇菜。
所以你看,ai和ai下棋哪个强这个问题的答案,其实是在不断变化的。在规则明确的棋盘上,OpenAI的o3目前是王者-4-5。但在需要心理博弈的牌桌上,或者在需要团队协作的狼人杀里,可能又是另一番天地。这就像咱们人类社会,让爱因斯坦去参加铁人三项,他肯定游不过菲尔普斯,但这不代表他不伟大。
对于我们这些看客和用户来说,最直接的感受就是:别再把AI当神。它们也会像个刚学棋的孩子一样,走出那种让人捶胸顿足的臭棋。2026年的今天,这些大模型在棋类上的绝对水平,甚至还没摸到人类大师的门槛(人类大师2200分,o3才1685分)-4-5。但这恰恰是它们最可爱也最像人的地方。
所以啊,下次再有人问你“AI和AI下棋到底谁厉害”,你就把这篇甩给他。告诉他,现在的AI棋坛,就像当年的春秋战国,诸侯割据,各有千秋。但有一点是肯定的——看着它们在下棋时犯的那些低级错误,感觉真特么解气,原来你们也不是万能的嘛!这种既生猛又弱鸡的反差萌,估计还得持续好一阵子呢。