新开传奇私服

传奇私服发布网

当前位置:首页 > 互联网 IT业界 > GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压

GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压

admin 互联网 IT业界 39热度

  新智元报道

  编辑:桃子好困

  ChatGPT 也能用上最强的 GPT-4 Turbo 了!今天,新版 GPT-4 Turbo 再次重夺大模型排行榜王座,超越了 Claude 3 Opus。而且,新模型在处理 64k 长上下时,性能直接达到了旧版在 26k 时的性能。

  今天起,最新版的 GPT-4 Turbo,正式向 ChatGPT Plus 用户开放了!

  有了 GPT-4 Turbo 加持后,ChatGPT 写作、数学、逻辑推理和编码的能力得到提升。

  小编小试,果然 ChatGPT 最新数据已经更新到了 4 月。

  根据基准测试结果,GPT-4 Turbo 在数学能力比上一代有了明显改进。

  这也就不难理解,新版的 GPT-4 Turbo 今天再次登顶大模型排行榜。

  就连奥特曼本人表示,「GPT-4 现在更加智能,使用起来也更舒适」。

  另外,据 OpenAI 介绍,GPT-4 Turbo 在回复时,变得更直接、减少啰嗦内容,更加口语化。

  一起看看,GPT-4 Turbo 在基准测试中能力如何?

  数学性能提升近 10%

  在官方公开 GitHub 上,OpenAI 放出了 gpt-4-turbo-2024-04-09 最新的评估结果。

  主要在以下七大基准上,对模型完成了评估:

MMLU(测量大规模多任务语言理解)

MATH(使用 MATH 数据集测量数学问题解决能力)

GPQA(研究生级别的谷歌防护问答基准)

DROP(需要对段落进行离散推理的阅读理解基准)

MGSM(多语言小学数学基准):语言模型作为多语言思维链推理者

HumanEval(评估在代码上训练的大型语言模型)

MMMU(用于专家通用人工智能的大规模多学科多模态理解和推理基准)

  在这个 GitHub 库中,OpenAI 主要使用零样本、CoT 设置,并采用简单的指令,如「解决以下多项选择题」。

  这种提示方式更能真实反映模型在实际使用中的表现。

  具体结果如下所示:

  最新的 gpt-4-turbo 比以往的 GPT-4 系列,在性能上有着明显的提升。

  尤其数学方面,能力实现了近 10% 的跃阶。

  而在整体的比较中,新模型也基本上实现了对 Claude 3 Opus 和 Gemini Pro 1.5 的全面超越。

  大海捞针比初代 GPT-4 提升 4.3 倍

  同样的,在大海捞针测试中,最新的 gpt-4-turbo 也是全方位地超越了此前的 1106-preview。

  众所周知,上下文越长,对模型的挑战就越大。

  而 gpt-4-turbo 可以在处理长达 64k Token 的内容时,性能直接媲美预览版在 26k Token 时的表现。

  如果我们回顾一下 GPT-4 刚发布时的情况,也就是大约一年之前。

  最新的 gpt-4-turbo 在 32k 的配置下,性能比初代 GPT-4 提高了约 4.3 倍。

  顺便一提,那个时候,模型能处理的上下文最高只到 32k。

  GPT-4 Turbo 重回王座

  前段时间,Anthropic 手里的最强大模型 Claude 3 Opus,可以说是霸榜各大榜单。

  不过,就在今天,OpenAI 凭借着全新的 gpt-4-turbo,又把它从「榜一」的位置上拉了下来。

  根据「LLM 排位赛」最新的结果,GPT-4-Turbo 再次超越 Claude 3,夺得第一。

  LMSYS Org 从多个领域收集了超过 8000 张人类投票,发现 GPT-4-Turbo 在编程与推理方面的表现,超越了其他模型。

  为了深入了解,研究人员在 Arena 引入了「类别」功能。

  通过这一新功能,可以对编程、长查询处理和多语言能力等不同领域进行了更详尽的比较。

  研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面,GPT-4-Turbo 展现出更强的性能。

  类似的,Naman Jain 也发现,新版 GPT-4-Turbo 在 LiveCodeBench(包含编程竞赛题)上的表现,提高了惊人的 4.5 分。

  这类问题对目前的 LLM 来说挑战很大,而 OpenAI 此次的更新,明显是大幅提升了模型推理能力。

  在长查询领域(Token 数量超过 500),Claude-3 Opus 表现最佳。

  令人有些意想不到的是,Command R/R+ 在这一领域中也有着非常高的得分。

  有趣的是,如果只涉及英语提示,排名会与整体略有不同。

  在这一类别中,三种 GPT-4-Turbo 依然处于领先地位。

  而这种变化的产生,是因为随着用户基数的扩大,语言使用从英语转向包括中文在内的多种语言。

  而在应对不同的语言时,模型的表现也有所差异。

  例如,在中文环境中,Claude-3 Opus 排名第一。

  以下是模型评分的置信区间 (CIs) :

  以及整体的胜率热图:

  参考资料:

  https://twitter.com/OpenAI/status/1778574613813006610

  https://twitter.com/lmsysorg/status/1778555678174663100

更新时间 2024-05-01 13:30:29