📰 早报|财政部明确!「国补」明年继续实施/马斯克评价宇树机器人「下黑脚」/追觅四门超跑1月见
近期,北京大学化学与分子工程学院发布了化学领域的多模态深度推理评测成果SUPERChem,测试了AI在科学推理中的能力。参与测试的包括174名本科生和多款AI模型。结果显示,北大学生的平均准确率为40.3%,而顶尖AI模型的表现仅与低年级本科生相当,最高的GPT-5正确率为39.6%。
测试题库由500道高难度题目组成,旨在考察AI的推理能力。尽管AI拥有丰富的知识储备,但在处理复杂的化学问题时,仍显得力不从心,尤其是在需要严密逻辑和深刻理解的任务上。团队指出,AI的推理链条常常断裂,尤其在产物结构预测和反应机理识别等高阶任务中表现不佳。
这项研究并非仅为揭示AI的短板,而是希望通过SUPERChem推动AI的发展,强调从简单的知识记忆到理解物理世界的跨越仍需努力。未来,AI需要在理解和推理能力上取得更大进展,才能成为真正的科学助手。
🏷️ #AI #化学 #推理 #北大 #教育
🔗 原文链接
📰 早报|财政部明确!「国补」明年继续实施/马斯克评价宇树机器人「下黑脚」/追觅四门超跑1月见
近期,北京大学化学与分子工程学院发布了化学领域的多模态深度推理评测成果SUPERChem,测试了AI在科学推理中的能力。参与测试的包括174名本科生和多款AI模型。结果显示,北大学生的平均准确率为40.3%,而顶尖AI模型的表现仅与低年级本科生相当,最高的GPT-5正确率为39.6%。
测试题库由500道高难度题目组成,旨在考察AI的推理能力。尽管AI拥有丰富的知识储备,但在处理复杂的化学问题时,仍显得力不从心,尤其是在需要严密逻辑和深刻理解的任务上。团队指出,AI的推理链条常常断裂,尤其在产物结构预测和反应机理识别等高阶任务中表现不佳。
这项研究并非仅为揭示AI的短板,而是希望通过SUPERChem推动AI的发展,强调从简单的知识记忆到理解物理世界的跨越仍需努力。未来,AI需要在理解和推理能力上取得更大进展,才能成为真正的科学助手。
🏷️ #AI #化学 #推理 #北大 #教育
🔗 原文链接
📰 阿里发布Qwen3-Max 性能超GPT5跻身全球前三
2025云栖大会于9月24日开幕,阿里通义旗舰模型Qwen3-Max正式亮相,其性能超越了GPT5和Claude Opus 4,跻身全球前三。Qwen3-Max包括指令和推理两个版本,预览版在Chatbot Arena排行榜上位列第三,正式版有望再创佳绩。作为通义千问家族中最大、最强的基础模型,Qwen3-Max的预训练数据量达到36T tokens,总参数超过万亿,展现出强大的编程能力和工具调用能力。
在SWE-Bench Verified测试中,Instruct版本获得69.6分,位列全球第一梯队;在Tau2-Bench测试中,Qwen3-Max以74.8分的成绩超越Claude Opus4和DeepSeek-V3.1。推理增强版本Qwen3-Max-Thinking-Heavy也表现出色,尤其在数学推理的AIME 25和HMMT测试中均取得满分100分,标志着国内首次实现此成就。Qwen3-Max的成功在于其能够灵活调动工具和编写代码解决数学问题。
根据Scaling Law理论,持续增长的数据和参数规模是实现AGI的潜在路径。尽管部分学者认为预训练的Scaling Law接近上限,但Qwen3-Max的突破性表现表明,继续扩大数据和模型参数仍然能够创造出更强的模型。目前,通义千问系列模型已覆盖从0.5B到超万亿的全尺寸,满足不同场景的需求,用户可在通义千问QwenChat上免费体验Qwen3-Max。
🏷️ #Qwen3-Max #云栖大会 #大模型 #推理能力 #阿里云
🔗 原文链接
📰 阿里发布Qwen3-Max 性能超GPT5跻身全球前三
2025云栖大会于9月24日开幕,阿里通义旗舰模型Qwen3-Max正式亮相,其性能超越了GPT5和Claude Opus 4,跻身全球前三。Qwen3-Max包括指令和推理两个版本,预览版在Chatbot Arena排行榜上位列第三,正式版有望再创佳绩。作为通义千问家族中最大、最强的基础模型,Qwen3-Max的预训练数据量达到36T tokens,总参数超过万亿,展现出强大的编程能力和工具调用能力。
在SWE-Bench Verified测试中,Instruct版本获得69.6分,位列全球第一梯队;在Tau2-Bench测试中,Qwen3-Max以74.8分的成绩超越Claude Opus4和DeepSeek-V3.1。推理增强版本Qwen3-Max-Thinking-Heavy也表现出色,尤其在数学推理的AIME 25和HMMT测试中均取得满分100分,标志着国内首次实现此成就。Qwen3-Max的成功在于其能够灵活调动工具和编写代码解决数学问题。
根据Scaling Law理论,持续增长的数据和参数规模是实现AGI的潜在路径。尽管部分学者认为预训练的Scaling Law接近上限,但Qwen3-Max的突破性表现表明,继续扩大数据和模型参数仍然能够创造出更强的模型。目前,通义千问系列模型已覆盖从0.5B到超万亿的全尺寸,满足不同场景的需求,用户可在通义千问QwenChat上免费体验Qwen3-Max。
🏷️ #Qwen3-Max #云栖大会 #大模型 #推理能力 #阿里云
🔗 原文链接