万年水的博客

标题：阿里的Qwen3确实很强，但“超越”、“登顶”？我们用事实来看！

随着 Qwen3模型的发布，不少文章标题都用了“超越”、“登顶”、“SOTA”等颇具吸引力的词汇，字里行间透露着这款新模型已经力压群雄、独孤求败的意味。

Qwen3 毫无疑问是一款非常强大的模型，这一点毋庸置疑。但事实是否真的如此绝对？“超越”、“登顶”这些词，我们需要基于更全面的数据来审视。

我们先看看官方的描述“我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果”，极具竞争力还是比较客观的，比其它媒体都准确一些。

这里有一份包含 Qwen3-235B-A22B 在内，对比多个主流大型模型在一些列评测基准上表现的表格（表格来源: 千问官方公众号）。让我们基于这份事实数据，来理性分析一下 Qwen3-235B-A22B 的能力定位。

（此处可以插入表格图片，或简单描述表格内容，例如：）

数据怎么说？

毋庸置疑，Qwen3-235B-A22B 的成绩非常亮眼：

在 ArenaHard（复杂对话/指令）上获得 95.6 分。
在 AIME 数学竞赛基准（‘24 和 ‘25）上分别获得 85.7 和 81.5 的高分。
在 Codeforces Elo Rating 这一衡量竞技编程能力的指标上达到 2056 分。
在 LiveBench 和 MultiIF 等基准上也表现出色。

这些分数表明，Qwen3-235B-A22B 在通用能力、数学推理和编程等核心领域确实具备顶级模型的实力。特别是在 ArenaHard 和 AIME 等评测中，它的分数是名列前茅的。

但是，“超越”和“登顶”了吗？

当我们审视表格中的其他模型，尤其是 Gemini 2.5-Pro 时，会发现情况并非那么简单：

在 ArenaHard 上，Gemini 2.5-Pro 获得了 96.4 分，略高于 Qwen3-235B-A22B。
在 AIME'24 (92.0 分) 和 AIME'25 (86.7 分) 上，Gemini 2.5-Pro 的分数均高于 Qwen3-235B-A22B。
在 LiveBench (82.4 分) 和 MultiIF (77.8 分) 上，Gemini 2.5-Pro 的得分也更高。
即使在 Qwen3-235B-A22B 表现优秀的 Codeforces Elo Rating (2056 分) 上，Gemini 2.5-Pro 也取得了 2001 分的非常接近的成绩。

从这份数据来看，Gemini 2.5-Pro 在多个关键基准上表现与 Qwen3-235B-A22B 相当，甚至在部分通用能力和数学评测中分数更高。表格中的 Deepseek-Rl、OpenAI-0x01 等模型在某些单项上也展现出了各自的优势。

理性看待“最好”

“超越”、“登顶”或“SOTA”通常意味着在绝大多数重要且有代表性的评测基准上都取得了最佳成绩，表现出压倒性的优势。然而，根据我们这份基于公开数据的表格，虽然 Qwen3-235B-A22B 毫无疑问是当前最强大的模型之一，并且在一些特定能力上表现突出，但它并没有在这份有限的、但具有代表性的基准列表中实现全面的“超越”或“登顶”。至少在这份数据范围内，还有其他模型（如 Gemini 2.5-Pro）在多个维度上与其比肩甚至略有领先。

总结：

Qwen3-235B-A22B 是一个极其强大且能力全面的大型模型，它的发布无疑是技术进步的重要一步。我们应该为国内社区能推出这样高质量的模型感到振奋。但是，基于这份具体的数据，我们在传播时或许可以更严谨一些。至少目前距离Gemini 2.5-Pro 还是有一些差距的。

期待未来看到更多客观、透明的评测数据，帮助我们更清晰地认识各家大型模型的真实实力和优势所在。