#推理能力

⁣
📰 阿里发布Qwen3-Max 性能超GPT5跻身全球前三

2025云栖大会于9月24日开幕，阿里通义旗舰模型Qwen3-Max正式亮相，其性能超越了GPT5和Claude Opus 4，跻身全球前三。Qwen3-Max包括指令和推理两个版本，预览版在Chatbot Arena排行榜上位列第三，正式版有望再创佳绩。作为通义千问家族中最大、最强的基础模型，Qwen3-Max的预训练数据量达到36T tokens，总参数超过万亿，展现出强大的编程能力和工具调用能力。

在SWE-Bench Verified测试中，Instruct版本获得69.6分，位列全球第一梯队；在Tau2-Bench测试中，Qwen3-Max以74.8分的成绩超越Claude Opus4和DeepSeek-V3.1。推理增强版本Qwen3-Max-Thinking-Heavy也表现出色，尤其在数学推理的AIME 25和HMMT测试中均取得满分100分，标志着国内首次实现此成就。Qwen3-Max的成功在于其能够灵活调动工具和编写代码解决数学问题。

根据Scaling Law理论，持续增长的数据和参数规模是实现AGI的潜在路径。尽管部分学者认为预训练的Scaling Law接近上限，但Qwen3-Max的突破性表现表明，继续扩大数据和模型参数仍然能够创造出更强的模型。目前，通义千问系列模型已覆盖从0.5B到超万亿的全尺寸，满足不同场景的需求，用户可在通义千问QwenChat上免费体验Qwen3-Max。

🏷️ #Qwen3-Max #云栖大会 #大模型 #推理能力 #阿里云

🔗 原文链接