马斯克的Grok3实测翻车！竟连9.11和9.9哪个大都答不出

3 0 2025-02-19

马斯克发布Grok3：AI新版本引发热议，但实际表现引质疑 Grok3发布，全球期待值高涨北京时间2月18日，马斯克与xAI团队在直播中正式发布了Grok的最新版本——Grok3。在发布会之前，马斯克通过不断预热和炒作，使得全球对Grok3的期待值达到了前所未有的高度。 Grok3在基准测试中表现优异在一周前的直播中，马斯克曾评论DeepSeek R1，并表示xAI即将推出更优秀的AI模型。从现场展示的数据来看，Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型。马斯克甚至宣称Grok3未来将用于SpaceX火星任务计算，并预测“三年内将实现诺贝尔奖级别突破”。实际测试：Grok3在基础问题上表现不佳这些目前都只是马斯克的一家之言。在发布后，笔者测试了最新的Beta版Grok3，并提出了一个经典的问题：“9.11与9.9哪个大？”遗憾的是，在不加任何定语以及标注的情况下，号称目前最聪明的Grok3，仍然无法正确回答这个问题。网友自发测试：Grok3在基础问题上屡屡翻车在测试发出之后，很短的时间内迅速引发了不少朋友的关注。无独有偶，在海外也有很多类似问题的测试，例如“比萨斜塔上两个球哪个先落下”这些基础物理/数学问题，Grok3也被发现仍然无法应对。因此被戏称为“天才不愿意回答简单问题”。 Grok3在游戏分析中表现不佳除了网友自发测试的这些基础知识上Grok3出现了翻车，在xAI发布会直播中，马斯克演示使用Grok3来分析他号称经常玩的Path of Exile 2（流放之路2）对应的职业与升华效果，但实际上Grok3给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。 Grok3的可靠性再次受到质疑这个失误不仅成为了海外网友再次嘲讽马斯克打游戏“找代练”的实锤证据，同时也为Grok3在实际应用中的可靠性，再次打上了一个大大的问号。 Grok3的分数与实际能力不符虽然在分数上，Grok3超过了目前公开测试的所有模型，但这一点并不被很多人买账：毕竟xAI在Grok2时代就有在这个榜单中“刷分”，随着榜单对回答长度风格做降权处理而大幅降低分数的情况，因此经常被业内人士诟病“高分低能”。