张俊林:OpenAI o1的价值含义及强化学习的Scaling Law

09-14 487阅读 0评论

机器之心转载

作者:新浪新技能研制负责人张俊林

蹭下热度谈谈 OpenAI o1 的价值含义及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大进步

我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的开展,逻辑推理才能进步的作用和方法比料想的要好,GPT 4o 和 o1 是开展大模型不同的方向,可是 o1 这个方向更底子,重要性也比 GPT 4o 这种方向要重要得多,原因下面会剖析。

为什么说 o1 比 4o 方向重要?

这是两种不同的大模型开展思路,说实话在看到 GPT 4o 发布的时分我是有些绝望的,我其时认为 OpenAI 会优先做 o1 这种方向,可是没想到先出了 GPT 4o。GPT 4o 本质上是要探究不同模态彼此交融的大一统模型应该怎样做的问题,关于进步大模型的智力水平估量协助不大;而 o1 本质上是在探究大模型在 AGI 路上能走多远、天花板在哪里的问题,很显着第二个问题更重要。

GPT 4o 的问题在于自身大模型的智力水平还不行高,所以做不了杂乱使命,导致许多使用场景无法实用化,而盼望靠图片、视频这类新模态数据大幅进步大模型智力水平是不太或许的,虽然的确能拓宽更丰厚的多模态使用场景,但这类数据补偿的更多是大模型对外在多模态国际的感知才能,而不是认知才能。进步大模型认知才能首要还要靠 LLM 文本模型,而进步 LLM 模型认知才能的中心又在杂乱逻辑推理才能。LLM 的逻辑推理才能越强,则能解锁更多杂乱使用,大模型使用的天花板就越高,所以竭尽全力地进步大模型尤其是文本模型的逻辑才能应该是最重要的工作,没有之一。

假如 o1 模型才能越做越强,则能够反哺 GPT 4o 这种多模态大一统模型,能够经过直接用 o1 基座模型替换 GPT 4o 的基座、或许使用 o1 模型生成逻辑推理方面的组成数据增强 GPT 4o、再或许用 o1 蒸馏 GPT 4o 模型….. 等等,能玩的把戏应该有许多,都能够直接进步 GPT 4o 的杂乱使命处理才能,然后解锁更杂乱的多模态使用场景。OpenAI 未来方案两条线,一条是 o1,一条是 GPT 4o,它的内涵逻辑大约应该是这样的,便是说经过 o1 增强最重要的基座模型逻辑推理才能,而再把这种才能迁移到 GPT 4o 这种多模态通用模型上。

OpenAI o1 的做法本质上是 COT 的主动化。

咱们知道,经过 COT 把一个杂乱问题拆解成若干简略过程,这有利于大模型处理杂乱逻辑问题,但之前首要靠人工写 COT 来到达。从用户提出的问题构成树的根结点动身,终究走到给出正确答案,能够想像成相似 AlphaGo 下棋,构成了巨大的由 COT 具体过程构成的树形查找空间,这儿 COT 的具体过程的组合空间是巨大的,人写的 COT 未必最优。假如咱们有许多逻辑数据,是由 <问题,清晰的正确答案> 构成,则经过相似 AlphaGo 的 Monte Carlo Tree Search(MCTS)查找 + 强化学习,的确是能够练习大模型快速找到通向正确答案的 COT 途径的。

而问题越杂乱,则这个树的查找空间越大,查找杂乱度越高,找到正确答案涉及到的 COT 过程越多,则模型生成的 COT 就越杂乱,表现在 o1 的速度越慢,生成的 COT Token 数越多。很显着,问题越杂乱,o1 自己生成的躲藏的 COT 越长,大模型推理本钱越高,但作用最重要,本钱其实不是问题,最近一年大模型推理本钱下降速度奇快,这个总有方法快速降下去。

从上面 o1 的做法能够知道 Prompt 工程会逐步消亡。

之前处理杂乱问题,需求人写非常杂乱的 Prompt,而 o1 本质上是 COT 等杂乱 Prompt 的主动化,所以之后是不太需求用户自己结构杂乱 Prompt 的。原本让用户写杂乱 Prompt 便是不人性化的,一切杂乱人工环节的主动化,这必定是大势所趋。

Agent 归于概念火但无法实用化的方向,首要原因就在于基座模型的杂乱推理才能不行强。假如经过基座模型 Plan 把一个杂乱使命分解为 10 个过程,哪怕单个过程的正确率高达 95%,要想终究把使命做对,10 个环节的准确率连乘下来,终究的正确率只需 59%,不忍目睹。那有了 o1 是不是这个方向就出路坦荡?也是也不是,o1 的 Model Card 专门测试了 Agent 使命,关于简略和中等难度的 Agent 使命有显着进步,可是杂乱的、环节多的使命准确率仍是不太高。便是说,不是说有了 o1 Agent 就现状光亮,可是很显着 o1 这种经过 Self Play 增强逻辑推理才能的方向应该还有很大的开展潜力,从这个视点讲说 Agent 未来出路光亮问题应该不大。

OpenAI 许多时分起到一个职业指路明灯的作用,往往是第一个证明某个方向是行得通的(比方 ChatGPT、GPT 4、Sora、GPT 4o 包括这次的 o1),然后其他人开端张狂往这个方向卷,到后来乃至卷的速度太快把 OpenAI 都甩到后边吃尾气。典型比如便是 Sora,假如 OpenAI 不是出于阻击竞争对手秀一下肌肉,咱们都没有意识到原本这个方向是能够走这么远的,但当意识到这一点后,只需你专注地卷一个方向,方向清晰且资源聚集,是或许赶超 OpenAI 的,现在国内外各种视频生成模型有些乃至或许现已比 Sora 好了,Sora 至今仍然是期货状况,首要 OpenAI 想做的方向太多,资源涣散导致分到具体一个方向的资源不行用,所以越往后开展期货状况的方向越多,也让人觉得尽显疲态。

OpenAI o1 等于给咱们又指出了一个远景光亮的方向,估量后边咱们又开端都往这个方向卷。我觉得卷这个方向比去卷 GPT 4o 和视频生成要好,虽然具体怎样做的都不知道,可是大方向清楚且作用根本得到证明,过半年必定头部几家都能摸清具体技能追上来,希望能再次让 OpenAI 吃尾气。并且这个方向看上去资源消耗应该不会特别大,倾向算法和数据一些,数据量规划估量不会特别巨大,卷起来形似本钱低一些。这是个卷的好方向。

二、预练习 Scaling Law 的来历及 O1 说到的 RL Scaling law

粗分的话,大言语模型最根底的才能有三种:言语了解和表达才能、国际常识存储和查询才能以及逻辑推理才能(包括数学、Coding、推理等理科才能,这儿 Coding 有必定的特殊性,是言语才能和逻辑掺杂在一起的混合才能,Coding 从言语视点能够当作一种受限的天然言语,可是混杂着杂乱的内涵逻辑问题。从言语视点看,Coding 形似是简单处理的,从逻辑视点看又相对难处理。总归,Coding 现在看是除了言语了解外,大模型做得最好的方向)。

言语了解和表达是 LLM 最强的才能,初版 ChatGPT 就能够彻底担任各种纯言语沟通的使命,根本到达人类水准,现在即使是小模型,在这方面比大模型才能也不弱;国际常识才能虽然跟着模型规划越大作用越好,但错觉问题现在无法彻底治愈,这是限制各种使用的硬伤之一;逻辑推理才能一向都是 LLM 的弱项,也是最难进步的方面,从 GPT 4 开端往后,怎么有用并大幅进步 LLM 的逻辑推理才能是表现不同大模型差异和优势的最中心问题。所以,大模型最重要的一个是国际常识方面怎么有用消除错觉,一个是怎么大幅进步杂乱逻辑推理才能。言语才能已不是问题。

从大模型的根底才能,咱们再说回现已被谈滥了的大模型 Scaling law。现在普遍认为经过添加数据和模型规划来进步大模型作用的 Scaling law 方式,其增加速度在放缓。其实咱们对照下大模型的三个根底才能的才能来历,根本就能看出来这是为啥(以下是我猜的,不保真):

本质上大模型的才能来历都来自练习数据,包括能表现这方面才能的练习数据越多,则这种才能越强。言语才能不必说了,恣意一份预练习数据,其中都包括适当份额的言语的词法句法等成分,所以练习数据中表现言语才能的数据是最多的,这也是为何大模型的言语才能最强的原因。

而数据中包括的国际常识含量,根本是和练习数据量成正比的,显着数据量越多,包括的国际常识越多,Scaling law 是数据中包括的国际常识含量联系的一个表现,可是这儿有个问题,大模型见过越多数据,则新数据里边包括的新常识份额越小,由于许多常识在之前的数据里都见过了,所以跟着数据规划增大,遇到的新常识份额就越低,在国际常识方面就表现出 Scaling law 的减缓现象。

为啥逻辑推理才能最难进步?由于能表现这方面的天然数据(代码、数学题、物理题、科学论文等)在练习数据中份额太低,天然大模型就学欠好,虽然经过不断添加数据,能添加逻辑推理方面数据的必定数量,但由于占比太少,这方面进步的作用和添加的整体数据规划就不成份额,作用也不会太显着,就表现在逻辑推理才能 Scaling law 看上去的放缓。这是很天然的。这也是为何现在为了进步模型逻辑才能,往往在预练习阶段和 Post-training 阶段,大幅添加逻辑推理数据占比的原因,且是有成效的。

所以现在大模型的中心才能进步,聚集到不断经过组成数据等方法结构更多份额的逻辑推理数据上来。可是大部分逻辑推理数据的方式是 < 问题,正确答案 >,缺了中心的具体推理过程,而 o1 本质上是让大模型学会主动寻觅从问题到正确答案的中心过程,以此来增强杂乱问题的处理才能。

OpenAI o1 说到了关于 RL 在练习和推理时分的 Scaling law,并指出这与预练习时分的 Scaling law 具有不同特性。很显着,假如 o1 走的是 MCTS 查找技能道路,那么把 COT 拆分的越细(添加查找树的深度),或提出更多的或许挑选(节点的分支增多,便是说树的宽度越宽),则查找空间越大,找到好 COT 途径或许性越大,作用越好,而练习和推理的时分需求算力必定越大。看上去有着作用跟着算力增加而增加的态势,也便是所谓的 RL 的 Scaling law。这其实是树查找原本应有之义,我倒觉得把这个称为 RL 的 Scaling law 有点名不虚传。

原文链接:https://weibo.com/1064649941/5078239682499316?sourceType=weixin&from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316

发表评论

快捷回复: 表情:
评论列表 (暂无评论,487人围观)

还没有评论,来说两句吧...

目录[+]