📰 早报|财政部明确!「国补」明年继续实施/马斯克评价宇树机器人「下黑脚」/追觅四门超跑1月见

近期,北京大学化学与分子工程学院发布了化学领域的多模态深度推理评测成果SUPERChem,测试了AI在科学推理中的能力。参与测试的包括174名本科生和多款AI模型。结果显示,北大学生的平均准确率为40.3%,而顶尖AI模型的表现仅与低年级本科生相当,最高的GPT-5正确率为39.6%。

测试题库由500道高难度题目组成,旨在考察AI的推理能力。尽管AI拥有丰富的知识储备,但在处理复杂的化学问题时,仍显得力不从心,尤其是在需要严密逻辑和深刻理解的任务上。团队指出,AI的推理链条常常断裂,尤其在产物结构预测和反应机理识别等高阶任务中表现不佳。

这项研究并非仅为揭示AI的短板,而是希望通过SUPERChem推动AI的发展,强调从简单的知识记忆到理解物理世界的跨越仍需努力。未来,AI需要在理解和推理能力上取得更大进展,才能成为真正的科学助手。

🏷️ #AI #化学 #推理 #北大 #教育

🔗 原文链接
 
 
Back to Top