📰 阿里发布Qwen3-Max 性能超GPT5跻身全球前三
2025云栖大会于9月24日开幕,阿里通义旗舰模型Qwen3-Max正式亮相,其性能超越了GPT5和Claude Opus 4,跻身全球前三。Qwen3-Max包括指令和推理两个版本,预览版在Chatbot Arena排行榜上位列第三,正式版有望再创佳绩。作为通义千问家族中最大、最强的基础模型,Qwen3-Max的预训练数据量达到36T tokens,总参数超过万亿,展现出强大的编程能力和工具调用能力。
在SWE-Bench Verified测试中,Instruct版本获得69.6分,位列全球第一梯队;在Tau2-Bench测试中,Qwen3-Max以74.8分的成绩超越Claude Opus4和DeepSeek-V3.1。推理增强版本Qwen3-Max-Thinking-Heavy也表现出色,尤其在数学推理的AIME 25和HMMT测试中均取得满分100分,标志着国内首次实现此成就。Qwen3-Max的成功在于其能够灵活调动工具和编写代码解决数学问题。
根据Scaling Law理论,持续增长的数据和参数规模是实现AGI的潜在路径。尽管部分学者认为预训练的Scaling Law接近上限,但Qwen3-Max的突破性表现表明,继续扩大数据和模型参数仍然能够创造出更强的模型。目前,通义千问系列模型已覆盖从0.5B到超万亿的全尺寸,满足不同场景的需求,用户可在通义千问QwenChat上免费体验Qwen3-Max。
🏷️ #Qwen3-Max #云栖大会 #大模型 #推理能力 #阿里云
🔗 原文链接
📰 阿里发布Qwen3-Max 性能超GPT5跻身全球前三
2025云栖大会于9月24日开幕,阿里通义旗舰模型Qwen3-Max正式亮相,其性能超越了GPT5和Claude Opus 4,跻身全球前三。Qwen3-Max包括指令和推理两个版本,预览版在Chatbot Arena排行榜上位列第三,正式版有望再创佳绩。作为通义千问家族中最大、最强的基础模型,Qwen3-Max的预训练数据量达到36T tokens,总参数超过万亿,展现出强大的编程能力和工具调用能力。
在SWE-Bench Verified测试中,Instruct版本获得69.6分,位列全球第一梯队;在Tau2-Bench测试中,Qwen3-Max以74.8分的成绩超越Claude Opus4和DeepSeek-V3.1。推理增强版本Qwen3-Max-Thinking-Heavy也表现出色,尤其在数学推理的AIME 25和HMMT测试中均取得满分100分,标志着国内首次实现此成就。Qwen3-Max的成功在于其能够灵活调动工具和编写代码解决数学问题。
根据Scaling Law理论,持续增长的数据和参数规模是实现AGI的潜在路径。尽管部分学者认为预训练的Scaling Law接近上限,但Qwen3-Max的突破性表现表明,继续扩大数据和模型参数仍然能够创造出更强的模型。目前,通义千问系列模型已覆盖从0.5B到超万亿的全尺寸,满足不同场景的需求,用户可在通义千问QwenChat上免费体验Qwen3-Max。
🏷️ #Qwen3-Max #云栖大会 #大模型 #推理能力 #阿里云
🔗 原文链接