新开传奇私服

传奇私服发布网

当前位置:首页 > 互联网 IT业界 > 我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

admin 互联网 IT业界 33热度

  鱼羊发自凹非寺

  量子位公众号 QbitAI

  大模型要在数学竞赛上跟人类同场竞技啦!

  最新消息,阿里巴巴全球数学竞赛,今日官宣开启报名。依然不限年龄、国籍、职业,有意思的是,这次甚至突破了碳基硅基的限制——

  首次向 AI 开放,诚邀全球大模型参赛。

  不仅如此,获胜 AI 最高还可获得 10000 美元(约合 7.2 万元人民币)奖金。

  如此因崔斯汀的消息,当即引起了网友们的关注。

  我们还打听到,国内外有不少高校研究团队和大模型创业公司已经表达出浓厚兴趣,准备参赛。

  新设「AI 挑战赛」

  具体来看规则。

  2024 阿里全球数赛,在预选赛阶段增设了一场AI 挑战赛

  和参加常规赛的人类选手一样,大模型们也要对同一套预赛试题作出解答,考核内容的难度相当于数学本科一年级水平,重点考察 AI 的数学逻辑推理与问题解决的能力。

  赛制方面,数赛官网已在今天(3 月 14 日)开放统一报名通道,大模型参赛团队须在报名页勾选 AI 参赛选项。

  完成报名后,官方会提供历届数赛初赛的真题和答案,让大模型选手们可以在正式比赛前先刷刷题练练手。

  4 月 13 日-15 日,官网将开启初赛考试通道,参赛选手需要在此期间完成答题,并在系统中提交人类评委看得懂的答卷。

  组委会将根据大模型在此过程中展现出的创新性、解题效率、解题过程的逻辑性等因素综合评分,并给出具体评语。

  最终得分排名前三的 AI 将依次获得 10000 美元、5000 美元和 2000 美元的奖金。如果所有 AI 均不能有效作答,则奖金会累积滚动到下届赛事的奖金池。

  值得一提的是,AI 挑战赛允许人类使用提示词工程来调教大模型。

  但为了确保公平竞赛,避免人类替考,参赛者需要在开赛前就提交模型代码或 Prompt,以供校验复现。

  (这波是反向防作弊了)

  大模型挑战数学竞赛·实测版

  正式比赛尚未开始,但显然,面对数学竞赛题,AI 具体会有怎样的表现,已经成为这届阿里数学竞赛的关注焦点之一。

  为了满足大家伙儿(包括我们自己)的好奇心,量子位已经率先要到了历届初赛的真题和参考答案,咱们就请出当前最强的两位通用大模型选手——GPT-4 和 Claude 3,来个真题演练,先睹为快。

  Round 1:选择题

  开胃小菜。先来这道 2023 年阿里数学竞赛初赛的一道图论题:

  还是先来看 GPT-4 的表现。

  在代码解释器的加持之下,GPT-4 成功选对了C选项,即 90≤S≤100。并且,GPT-4 也给出了具体的解释:

  它通过简化模型估算出等待总时间最小可能值是 81,考虑到实际线路中可能出现更多必须直行和左转的情况,结合选项,S值会更接近 90 而小于 100。

  △GPT-4 真的很话痨

  同样的题目抛给 Claude 3:

  Claude 3 成功判断了题型,但很遗憾回答错误。

  不过如果我们稍稍给点提示,比如:是否能将小明行驶的路线看成一个 100 边形,来尝试解题。

  Claude 3 瞬间就 get 到了思路,这次计算正确:S=96,选C。

  这么看来,大模型的表现还是可圈可点的。它们在工具加持又或者在人类点拨的情况下,能够给出正确答案的同时,还能给出具体的解题思路。

  Round 2:证明题

  选择题之外,证明题也是阿里数学竞赛必出的题型。我们也挑选了一道题来进行测试。

  先说正确结论:对于第一问,答案是存在;对于第二问,答案是不存在。

  来看 GPT-4 的答题情况:

  Claude 3 的答案:

  这一次,打分权交给你,你觉得 GPT-4 和 Claude 3 各能得几分?

  总结一下,从测试结果来看,大模型们挑战阿里数学竞赛题,还是难度不小。

  尽管基础知识丰富,能够初步判断出所考题型;计算速度也飞快,但也常会出现胡言乱语的状况,仍需要人类的指正和点拨。

  “AI 改变数学的时代正在到来”

  在我们的初步测试中,大模型的解题表现虽然不如那些能闯入决赛的人类选手,但已经可以想见,在这种新的碰撞中,我们可以期待看到更多 AI 在抽象思维、逻辑思辨和巧妙解题方面能力的展示。

  对此,阿里全球数学竞赛组委会也做出了阐释:

我们希望通过引入 AI 参赛,可以推动人工智能在数学领域的研究和应用创新,特别是探索 AI 在解决复杂数学问题方面的潜力,催生新的模型和训练方法。

  虽然我们预计今年 AI 还可能不及人类选手的水平,但是未来差距无疑会不断缩短,甚至于超越。这一旦发生,会倒逼竞赛难度提升,也会让人类选手迸发更大潜能。

  此外,数学本身就是 AI 的基础,我们也会去解读一些优秀 AI 背后的数学原理,向公众展示数学对于 AI 的重要性和应用前景,希望能够提升大众,特别是青少年对基础学科的兴趣。

  早在 ChatGPT 刚开始流行之时,以陶哲轩等人为代表的数学家们,就对大模型保持高度关注。

  陶哲轩本人不仅将多种 AI 工具都纳入了自己的工作流,还大胆预言:

  当与形式证明验证器、互联网搜索和数学符号包等工具整合时,2026 年的 AI,如果使用得当,将成为数学研究中值得信赖的共同作者,并且在许多其他领域也是如此。

  而《纽约时报》更是在对多位知名数学家进行采访后,给出了这样的评论:AI 改变数学的时代正在到来。

AI is coming for mathematics, too.

  现在,阿里全球数学竞赛这样备受关注的赛事主动拥抱 AI,再次印证了这一新趋势。

  背后透露出的,还有数学界面对新一轮技术变革所产生的期待。

  对于人类选手而言,AI 与数学更深入的结合趋势已经显现,这样的比赛,可以作为新一类接触的桥梁。

  对于数学家和 AI 研究者们而言,这样的平台为 AI for Math 提供了一个测试研究成果的基准,有助于推动更多数学与 AI 的前沿研究。

  而对于大众,这也是进一步理解 AI 能力,和数学魅力的一扇窗口。

  据说,此次大赛主办方还将联合魔搭社区,准备招募更多的开发者来参与;到时候一些国内主流的开源数学模型也出来打配合,同开发者一道与一众数学爱好者们同场竞技!

  哦莫,已经可预见的是,数学界的人机混战一触即发~

  所以广大开发者们也不要光看了,赶紧来试试,没准儿还能赚点生活费……

  你说是吧~

  — 完 —

更新时间 2024-05-05 08:12:08