新开传奇私服

传奇私服发布网

当前位置：首页 > 互联网 IT业界 > GPT-4 Turbo重回王座，ChatGPT免费升级！数学暴涨10%/上下文全面碾压

GPT-4 Turbo重回王座，ChatGPT免费升级！数学暴涨10%/上下文全面碾压

admin 5个月前互联网 IT业界 39热度

　　新智元报道

　　编辑：桃子好困

　　ChatGPT 也能用上最强的 GPT-4 Turbo 了！今天，新版 GPT-4 Turbo 再次重夺大模型排行榜王座，超越了 Claude 3 Opus。而且，新模型在处理 64k 长上下时，性能直接达到了旧版在 26k 时的性能。

　　今天起，最新版的 GPT-4 Turbo，正式向 ChatGPT Plus 用户开放了！

　　有了 GPT-4 Turbo 加持后，ChatGPT 写作、数学、逻辑推理和编码的能力得到提升。

　　小编小试，果然 ChatGPT 最新数据已经更新到了 4 月。

　　根据基准测试结果，GPT-4 Turbo 在数学能力比上一代有了明显改进。

　　这也就不难理解，新版的 GPT-4 Turbo 今天再次登顶大模型排行榜。

　　就连奥特曼本人表示，「GPT-4 现在更加智能，使用起来也更舒适」。

　　另外，据 OpenAI 介绍，GPT-4 Turbo 在回复时，变得更直接、减少啰嗦内容，更加口语化。

　　一起看看，GPT-4 Turbo 在基准测试中能力如何？

　　数学性能提升近 10%

　　在官方公开 GitHub 上，OpenAI 放出了 gpt-4-turbo-2024-04-09 最新的评估结果。

　　主要在以下七大基准上，对模型完成了评估：

MMLU（测量大规模多任务语言理解）

MATH（使用 MATH 数据集测量数学问题解决能力）

GPQA（研究生级别的谷歌防护问答基准）

DROP（需要对段落进行离散推理的阅读理解基准）

MGSM（多语言小学数学基准）：语言模型作为多语言思维链推理者

HumanEval（评估在代码上训练的大型语言模型）

MMMU（用于专家通用人工智能的大规模多学科多模态理解和推理基准）

　　在这个 GitHub 库中，OpenAI 主要使用零样本、CoT 设置，并采用简单的指令，如「解决以下多项选择题」。

　　这种提示方式更能真实反映模型在实际使用中的表现。

　　具体结果如下所示：

　　最新的 gpt-4-turbo 比以往的 GPT-4 系列，在性能上有着明显的提升。

　　尤其数学方面，能力实现了近 10% 的跃阶。

　　而在整体的比较中，新模型也基本上实现了对 Claude 3 Opus 和 Gemini Pro 1.5 的全面超越。

　　大海捞针比初代 GPT-4 提升 4.3 倍

　　同样的，在大海捞针测试中，最新的 gpt-4-turbo 也是全方位地超越了此前的 1106-preview。

　　众所周知，上下文越长，对模型的挑战就越大。

　　而 gpt-4-turbo 可以在处理长达 64k Token 的内容时，性能直接媲美预览版在 26k Token 时的表现。

　　如果我们回顾一下 GPT-4 刚发布时的情况，也就是大约一年之前。

　　最新的 gpt-4-turbo 在 32k 的配置下，性能比初代 GPT-4 提高了约 4.3 倍。

　　顺便一提，那个时候，模型能处理的上下文最高只到 32k。

　　GPT-4 Turbo 重回王座

　　前段时间，Anthropic 手里的最强大模型 Claude 3 Opus，可以说是霸榜各大榜单。

　　不过，就在今天，OpenAI 凭借着全新的 gpt-4-turbo，又把它从「榜一」的位置上拉了下来。

　　根据「LLM 排位赛」最新的结果，GPT-4-Turbo 再次超越 Claude 3，夺得第一。

　　LMSYS Org 从多个领域收集了超过 8000 张人类投票，发现 GPT-4-Turbo 在编程与推理方面的表现，超越了其他模型。

　　为了深入了解，研究人员在 Arena 引入了「类别」功能。

　　通过这一新功能，可以对编程、长查询处理和多语言能力等不同领域进行了更详尽的比较。

　　研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面，GPT-4-Turbo 展现出更强的性能。

　　类似的，Naman Jain 也发现，新版 GPT-4-Turbo 在 LiveCodeBench（包含编程竞赛题）上的表现，提高了惊人的 4.5 分。

　　这类问题对目前的 LLM 来说挑战很大，而 OpenAI 此次的更新，明显是大幅提升了模型推理能力。

　　在长查询领域（Token 数量超过 500），Claude-3 Opus 表现最佳。

　　令人有些意想不到的是，Command R/R+ 在这一领域中也有着非常高的得分。

　　有趣的是，如果只涉及英语提示，排名会与整体略有不同。

　　在这一类别中，三种 GPT-4-Turbo 依然处于领先地位。

　　而这种变化的产生，是因为随着用户基数的扩大，语言使用从英语转向包括中文在内的多种语言。

　　而在应对不同的语言时，模型的表现也有所差异。

　　例如，在中文环境中，Claude-3 Opus 排名第一。

　　以下是模型评分的置信区间 (CIs) ：

　　以及整体的胜率热图：

　　参考资料：

　　https://twitter.com/OpenAI/status/1778574613813006610

　　https://twitter.com/lmsysorg/status/1778555678174663100

更新时间 2024-05-01 13:30:29