开源AI新王被指造假，不要迷信大模型的榜单了

09-11 570阅读 0评论

你有没有想过一个问题：AI模型是怎样论资排辈的？

和人类的高考相同，它们也有自己的考试——基准测验（Benchmark）。

不过，高考就那么几个科目，基准测验的把戏就多了，有的调查通识，有的专攻某一项才干，数学、代码、阅览了解，包罗万象。

Google发布Gemini时的基准测验排名

基准测验的优点是直观，榜单这么一拉，得分凹凸一望而知，比大段的文字更有撮合用户的作用。

可是，测归测，准禁绝就不必定了。由于最近的一个疑似造假工作，基准测验的可信度又下降了一层。

开源模型新王者，转瞬被“打假”

9月6日，Reflection 70B的呈现，似乎是个奇观。它来自名不见经传的纽约草创公司HyperWrite，却自封了“国际尖端开源模型”的称谓。

开发者Matt Shumer是怎样证明这一点的呢？用数据。

在多项基准测验中，参数仅有70B的它，打败了GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B等一众大佬。比顶尖闭源模型还有性价比，瞬间冷艳世人。

Reflection 70B并非从石头里蹦出来，自称根据Meta的Llama 3.1 70B，花了3周练习，用到了一种新的技能Reflection-Tuning，能够让AI检测本身推理中的过错，并在答复之前纠正。

用人类思想类比，这有点像《考虑，快与慢》从体系一到体系二的转化，提示AI悠着点，别信口开河，而是减慢推理速度，也削减错觉，给出更合理的答案。

可是，质疑声很快就来了。

9月8日，第三方测评安排Artificial Analysis表明，他们没能复现基准测验的成果。

比方，结构一项基准测验MMLU的分数，Reflection 70B和Llama 3 70B相同，但显着低于Llama 3.1 70B，更甭说GPT-4o。

Matt Shumer回复了质疑，解说第三方的成果更差，是由于Reflection 70B的权重在上传到Hugging Face时呈现了问题，导致模型的功能不如内部的API版别。

理由糟糕了点，两者比武有来有回，随后Artificial Analysis又表明，他们拿到了私有API的权限，体现的确不错，但仍是没有到达最初官宣的水平。

紧接着，X、Reddit的网友们也加入了“打假”部队，质疑Reflection 70B是直接在根底测验集上练习的LoRA，根底模型是Llama 3，所以能在榜单刷分，实则才干不可。

乃至有人责备，Reflection 70B套壳了Claude，自始至终就是在哄人。

9月11日，面临言论，Matt Shumer团队给出了声明，否认了套壳Claude，尚不清楚为什么基准测验的分数无法复现。

分数虚高，或许是一开始就错了，数据污染，或许装备过错，请咱们再给他们一些时刻。

现在工作还没有终究的结论，但至少阐明一个问题，AI榜单的可信度需求打个问号，拿刷榜的高分自我营销，对不明真相的大众而言很有迷惑性。

形形色色的大模型考试，人类的排名焦虑

让咱们回到最根底的问题：怎样点评一款大模型的功能？

一个比较简单粗犷的方法是看参数量，比方Llama 3.1就有多个版别，8B合适在消费级GPU上布置和开发，70B合适大规模AI原生运用。

假如说参数量是“出厂设置”，体现模型的才干上限，基准测验则是经过“考试”，评价模型在具体任务中的实践体现，至少稀有十种，偏重点不同，互相分数还不互通。

2020年发布的MMLU，又称大规模多任务言语了解，是现在最干流的英文评测数据集。

它包含约1.6万个多项挑选题，掩盖数学、物理、前史、法令、医学等57个科目，难度从高中到专家，是一种通用智力测验。模型答复正确的标题越多，水平就越高。

上一年12月，Google表明，Gemini Ultra在MMLU的得分高达90.0%，高于GPT-4。

可是，他们也不隐秘，提示Gemini和GPT-4的方法不同，前者是CoT（逐渐推理），后者是5-shot，所以这个分数或许不行客观。

当然，也有测验大模型各项细分才干的基准测验，罗列起来就太多了。

GSM8K首要调查小学数学，MATH也考数学，但更偏比赛，包含代数、几许和微积分等，HumanEval则考Python编程。

除了数理化，AI也做“阅览了解”，DROP让模型经过阅览阶段，并结合结构的信息进行杂乱推理，相比之下，HellaSwag偏重常识推理，和日子场景结合。

HellaSwag基准测验的测验题

尽管英文居多，中文大模型也有自己的基准测验，比方C-Eval，由上海交通大学，清华大学，爱丁堡大学共同完成，奉劝微积分等52个学科的近1.4万道标题。

中文基准测验SuperCLUE测验逻辑与推理

那么“评卷教师”是谁？大约分为三种，一是主动化程序，比方编程的基准测验，模型生成的代码经过主动履行验证正确与否，二是用GPT-4等更强壮的模型做裁判，三是人工。

混合拳这么一打，比四书五经六艺全面多了。但基准测验也存在严峻的危险。背面的公司“既当裁判又当运动员”，和教师怕学生做弊的状况如此类似。

一个危险是简单泄题，导致模型“抄答案”。

假如基准测验的测验集是揭露的，模型或许现已在练习过程中“见过”这些问题或答案，导致模型的体现成果不真实，由于模型或许不是经过推了答复问题，而是记住了答案。

这就涉及到数据走漏和过拟合的问题，导致模型的才干被高估。

人民大学等高校的研讨指出，与评价集相关的数据偶然会用于模型练习

还有一个危险是把戏做弊，这里有很大的人为操作空间。

Reflection 70B在X被评论得如火如荼的时分，英伟达不得要领研讨科学家Jim Fan发帖表明：操作基准测验，不难。

比方，从“题库”下手，根据测验集的改写比如练习模型。将测验集里的问题以不同的格局、遣词、言语重写，能够让一个13B的模型在MMLU、GSM8K、HumanEval等基准测验中打败GPT-4，倒反天罡。

一起，也能够改动“做题方法”，添加推理的算力，经过自我反思（Self-reflection）、思想树（Tree of Thought）等，让模型减慢推理、屡次推理，然后前进准确性。

Jim Fan的心情很清晰：

很惊奇，到了2024年9月，人们依然为MMLU或HumanEval的分数振奋。这些基准测验现已严峻失效，操控它们能够成为本科生的作业。

别的，基准测验的难度，或许不必定跟得上AI的发展速度，由于它们通常是静态的、单一的，但AI在狂奔。

参加开发MMLU的AI安全研讨员Dan Hendrycks，在本年4月告知Nytimes，MMLU或许还有一两年的保质期，很快会被不同的、更难的测验替代。

百模大战，人类社会的排名焦虑被传递给了AI，各种暗箱操作之下，AI排行榜成为一种营销东西，却鱼龙混杂，不那么可信。

AI模型哪家强，用户会投票

但许多时分，稀有据、有规范，工作才好办。

基准测验是一个结构化的打分提升，能够作为用户挑选模型的一个要素，也能够协助模型前进。做中文基准测验的C-Eval乃至直言：“咱们的最重要方针是辅佐模型开发。”

基准测验有其存在价值，关键是怎样变得更威望、更可信。

咱们现已知道，假如测验集被用于模型练习，或许导致模型在基准测验“做弊”，一些第三方的测评，便从这个缺口下手。

数据标示公司Scale AI的SEAL研讨实验室，很着重本身数据集的私密性。很好了解，“闭卷考”，才干见真章。

现在，SEAL能够测验模型的编码、指令盯梢、数学和多言语才干，未来还会添加更多测评的维度。

本年8月SEAL的编码才干排名

除了做题、打分的形式，还有一种更接地气的基准测验：竞技场。

结构的代表是Chatbot Arena，由卡内基梅隆大学、加州大学伯克利分校等研讨人员的非营利安排LMSYS建议。

它让匿名、随机的AI模型相互竞争，并由用户投票选出最佳模型，然后运用国际象棋等竞技游戏常用的Elo评分体系排名。

具体来说，咱们能够在线向两个随机挑选的匿名模型A和B发问，然后给两个答案投个票，更喜爱A，更喜爱B，平局，仍是都不喜爱，这时分，咱们才干看到A和B模型的真面目。

我提的问题是之前难倒过许多AI的“9.9仍是9.11大”，两个模型都答错了，我点了个踩，发现抽中的幸运儿一个是GPT-4o，一个是法国的Mixtral。

Chatbot Arena的利益很显着，海量用户提出的问题，必定比实验室捣鼓出的测验集杂乱和灵敏得多。人人看得见摸得着用得了，排名也就更挨近实际国际的需求。

不像一些基准测验，测验高等数学，测验输出安不安全，其实离研讨更近，离大多数用户的需求很远。

现在，Chatbot Arena现已收集了超越100万个投票。马斯克的xAI，也用过Chatbot Arena的排名背书。

但也有人持对立定见，以为Chatbot Arena会被少量用户的成见影响，萝卜青菜各有所爱，有些用户或许喜爱更长的答案，也有些用户赏识要言不烦，文无榜首，这怎样比？

所以，Chatbot Arena最近做出了一个调整，区分了“风格”和“内容”这两个目标，“内容”是说什么，“风格”是怎样说。经过操控对话长度和格局的影响，排名发生了改动。

简言之，怎样测，基准测验都不能保准，也不能被迷信，它们仅仅一种参阅，就像高考只能反映学生的部分才干。

当然，最令人不满的行为，是片面地在基准测验刷榜，为自己背书，单纯地寻求虚有其表的排名。

回归初衷，咱们都是要用AI处理实际问题，开发产品，写段代码，生成图片，做个心理咨询收成点心情价值......基准测验无法帮你答复，哪个AI说话更好听。

假的真不了，用脚投票，小马过河，才是最朴素的道理。那些更片面、更个人的感触和体会，依然要用咱们的实践交换。

相关阅读

发表评论取消回复

评论列表（暂无评论，570人围观）

还没有评论，来说两句吧...

目录[+]