开源AI新王被指造假,不要迷信大模型的榜单了

09-11 570阅读 0评论

你有没有想过一个问题:AI模型是怎样论资排辈的?


和人类的高考相同,它们也有自己的考试——基准测验(Benchmark)


不过,高考就那么几个科目,基准测验的把戏就多了,有的调查通识,有的专攻某一项才干,数学、代码、阅览了解,包罗万象。


Google发布Gemini时的基准测验排名


基准测验的优点是直观,榜单这么一拉,得分凹凸一望而知,比大段的文字更有撮合用户的作用。


可是,测归测,准禁绝就不必定了。由于最近的一个疑似造假工作,基准测验的可信度又下降了一层。


开源模型新王者,转瞬被“打假”


9月6日,Reflection 70B的呈现,似乎是个奇观。它来自名不见经传的纽约草创公司HyperWrite,却自封了“国际尖端开源模型”的称谓。



开发者Matt Shumer是怎样证明这一点的呢?用数据。


在多项基准测验中,参数仅有70B的它,打败了GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B等一众大佬。比顶尖闭源模型还有性价比,瞬间冷艳世人。



Reflection 70B并非从石头里蹦出来,自称根据Meta的Llama 3.1 70B,花了3周练习,用到了一种新的技能Reflection-Tuning,能够让AI检测本身推理中的过错,并在答复之前纠正。


用人类思想类比,这有点像《考虑,快与慢》从体系一到体系二的转化,提示AI悠着点,别信口开河,而是减慢推理速度,也削减错觉,给出更合理的答案。


可是,质疑声很快就来了。


9月8日,第三方测评安排Artificial Analysis表明,他们没能复现基准测验的成果。



比方,结构一项基准测验MMLU的分数,Reflection 70B和Llama 3 70B相同,但显着低于Llama 3.1 70B,更甭说GPT-4o。


Matt Shumer回复了质疑,解说第三方的成果更差,是由于Reflection 70B的权重在上传到Hugging Face时呈现了问题,导致模型的功能不如内部的API版别。


理由糟糕了点,两者比武有来有回,随后Artificial Analysis又表明,他们拿到了私有API的权限,体现的确不错,但仍是没有到达最初官宣的水平。


紧接着,X、Reddit的网友们也加入了“打假”部队,质疑Reflection 70B是直接在根底测验集上练习的LoRA,根底模型是Llama 3,所以能在榜单刷分,实则才干不可。



乃至有人责备,Reflection 70B套壳了Claude,自始至终就是在哄人。



9月11日,面临言论,Matt Shumer团队给出了声明,否认了套壳Claude,尚不清楚为什么基准测验的分数无法复现


分数虚高,或许是一开始就错了,数据污染,或许装备过错,请咱们再给他们一些时刻。



现在工作还没有终究的结论,但至少阐明一个问题,AI榜单的可信度需求打个问号,拿刷榜的高分自我营销,对不明真相的大众而言很有迷惑性。


形形色色的大模型考试,人类的排名焦虑


让咱们回到最根底的问题:怎样点评一款大模型的功能?


一个比较简单粗犷的方法是看参数量,比方Llama 3.1就有多个版别,8B合适在消费级GPU上布置和开发,70B合适大规模AI原生运用。


假如说参数量是“出厂设置”,体现模型的才干上限,基准测验则是经过“考试”,评价模型在具体任务中的实践体现,至少稀有十种,偏重点不同,互相分数还不互通。


2020年发布的MMLU,又称大规模多任务言语了解,是现在最干流的英文评测数据集。


它包含约1.6万个多项挑选题,掩盖数学、物理、前史、法令、医学等57个科目,难度从高中到专家,是一种通用智力测验。模型答复正确的标题越多,水平就越高。


上一年12月,Google表明,Gemini Ultra在MMLU的得分高达90.0%,高于GPT-4。


可是,他们也不隐秘,提示Gemini和GPT-4的方法不同,前者是CoT(逐渐推理),后者是5-shot,所以这个分数或许不行客观。



当然,也有测验大模型各项细分才干的基准测验,罗列起来就太多了。


GSM8K首要调查小学数学,MATH也考数学,但更偏比赛,包含代数、几许和微积分等,HumanEval则考Python编程。


除了数理化,AI也做“阅览了解”,DROP让模型经过阅览阶段,并结合结构的信息进行杂乱推理,相比之下,HellaSwag偏重常识推理,和日子场景结合。


HellaSwag基准测验的测验题


尽管英文居多,中文大模型也有自己的基准测验,比方C-Eval,由上海交通大学,清华大学,爱丁堡大学共同完成,奉劝微积分等52个学科的近1.4万道标题。


中文基准测验SuperCLUE测验逻辑与推理


那么“评卷教师”是谁?大约分为三种,一是主动化程序,比方编程的基准测验,模型生成的代码经过主动履行验证正确与否,二是用GPT-4等更强壮的模型做裁判,三是人工。


混合拳这么一打,比四书五经六艺全面多了。但基准测验也存在严峻的危险。背面的公司“既当裁判又当运动员”,和教师怕学生做弊的状况如此类似。


一个危险是简单泄题,导致模型“抄答案”。


假如基准测验的测验集是揭露的,模型或许现已在练习过程中“见过”这些问题或答案,导致模型的体现成果不真实,由于模型或许不是经过推了答复问题,而是记住了答案。


这就涉及到数据走漏和过拟合的问题,导致模型的才干被高估。


人民大学等高校的研讨指出,与评价集相关的数据偶然会用于模型练习


还有一个危险是把戏做弊,这里有很大的人为操作空间。


Reflection 70B在X被评论得如火如荼的时分,英伟达不得要领研讨科学家Jim Fan发帖表明:操作基准测验,不难。


比方,从“题库”下手,根据测验集的改写比如练习模型。将测验集里的问题以不同的格局、遣词、言语重写,能够让一个13B的模型在MMLU、GSM8K、HumanEval等基准测验中打败GPT-4,倒反天罡。



一起,也能够改动“做题方法”,添加推理的算力,经过自我反思(Self-reflection)、思想树(Tree of Thought)等,让模型减慢推理、屡次推理,然后前进准确性。


Jim Fan的心情很清晰:


很惊奇,到了2024年9月,人们依然为MMLU或HumanEval的分数振奋。这些基准测验现已严峻失效,操控它们能够成为本科生的作业。


别的,基准测验的难度,或许不必定跟得上AI的发展速度,由于它们通常是静态的、单一的,但AI在狂奔。


参加开发MMLU的AI安全研讨员Dan Hendrycks,在本年4月告知Nytimes,MMLU或许还有一两年的保质期,很快会被不同的、更难的测验替代。


百模大战,人类社会的排名焦虑被传递给了AI,各种暗箱操作之下,AI排行榜成为一种营销东西,却鱼龙混杂,不那么可信。


AI模型哪家强,用户会投票


但许多时分,稀有据、有规范,工作才好办。


基准测验是一个结构化的打分提升,能够作为用户挑选模型的一个要素,也能够协助模型前进。做中文基准测验的C-Eval乃至直言:“咱们的最重要方针是辅佐模型开发。”


基准测验有其存在价值,关键是怎样变得更威望、更可信。


咱们现已知道,假如测验集被用于模型练习,或许导致模型在基准测验“做弊”,一些第三方的测评,便从这个缺口下手。


数据标示公司Scale AI的SEAL研讨实验室,很着重本身数据集的私密性。很好了解,“闭卷考”,才干见真章。


现在,SEAL能够测验模型的编码、指令盯梢、数学和多言语才干,未来还会添加更多测评的维度。


本年8月SEAL的编码才干排名


除了做题、打分的形式,还有一种更接地气的基准测验:竞技场


结构的代表是Chatbot Arena,由卡内基梅隆大学、加州大学伯克利分校等研讨人员的非营利安排LMSYS建议。


它让匿名、随机的AI模型相互竞争,并由用户投票选出最佳模型,然后运用国际象棋等竞技游戏常用的Elo评分体系排名。


具体来说,咱们能够在线向两个随机挑选的匿名模型A和B发问,然后给两个答案投个票,更喜爱A,更喜爱B,平局,仍是都不喜爱,这时分,咱们才干看到A和B模型的真面目。


我提的问题是之前难倒过许多AI的“9.9仍是9.11大”,两个模型都答错了,我点了个踩,发现抽中的幸运儿一个是GPT-4o,一个是法国的Mixtral。



Chatbot Arena的利益很显着,海量用户提出的问题,必定比实验室捣鼓出的测验集杂乱和灵敏得多。人人看得见摸得着用得了,排名也就更挨近实际国际的需求。


不像一些基准测验,测验高等数学,测验输出安不安全,其实离研讨更近,离大多数用户的需求很远。


现在,Chatbot Arena现已收集了超越100万个投票。马斯克的xAI,也用过Chatbot Arena的排名背书。



但也有人持对立定见,以为Chatbot Arena会被少量用户的成见影响,萝卜青菜各有所爱,有些用户或许喜爱更长的答案,也有些用户赏识要言不烦,文无榜首,这怎样比?


所以,Chatbot Arena最近做出了一个调整,区分了“风格”和“内容”这两个目标,“内容”是说什么,“风格”是怎样说。经过操控对话长度和格局的影响,排名发生了改动。


简言之,怎样测,基准测验都不能保准,也不能被迷信,它们仅仅一种参阅,就像高考只能反映学生的部分才干。


当然,最令人不满的行为,是片面地在基准测验刷榜,为自己背书,单纯地寻求虚有其表的排名。


回归初衷,咱们都是要用AI处理实际问题,开发产品,写段代码,生成图片,做个心理咨询收成点心情价值......基准测验无法帮你答复,哪个AI说话更好听。


假的真不了,用脚投票,小马过河,才是最朴素的道理。那些更片面、更个人的感触和体会,依然要用咱们的实践交换。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,570人围观)

还没有评论,来说两句吧...

目录[+]