OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

09-13 910阅读 0评论

作者 | Li Yuan

北京时刻清晨一点,OpenAI 忽然进行了严重更新。

现已预热了挨近一年的 Q*/草莓项目,传说中可以进行高档推理的大言语模型,今晚总算露出了真面目。

OpenAI发推表明,刚刚推出了 OpenAI o1-preview 模型——姓名的意义之前外媒现已爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。

OpenAI 在发布文档中写道,新模型在推理才能上代表了人工智能才能的新水平,因而,计数器将重置为 1 ——这意味着未来很或许不会有 GPT-5 了,o1 将代表未来OpenAI的最强水平。

且从今日开端,ChatGPTPlus 和 Team 用户就可以直接拜访模型。

用户可以手动挑选运用 o1 模型的预览版——o1-preview,或许运用 o1 模型的小标准版——o1-mini。o1-preview 的每周约束为 30 条音讯,o1-mini 的每周约束为 50 条。

在 OpenAI 的模型介绍网页上,可以看到 o1 模型的练习数据截止时刻为上一年十月份,而最早的 Q*项目的爆料,正好大约呈现在上一年十一月份。

OpenAI 憋了一年的大招终究怎么?OpenAI 能否再一次引领大模型的潮流,乃至让人们看到通用人工智能之路不再悠远?很快,每个人都能查验这一点了。

Sam Altman 清晨一点在 X 上发帖:「需求耐性等候的时刻完毕了!」

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

01. o1 模型:处理博士等级的科学问题逾越人类

截止发稿时,笔者还不能运用 o1 模型。

不过 OpenAI 现已放出了许多相关的 o1 模型体现展示。

最引人重视的当然是新模型的推理才能。Sam Altman 直接在 X 上贴出了 o1 与 GPT-4o 在数学、编程和处理博士等级科学标题上的才能比照。

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

最左面的柱形代表现在 OpenAI 的主力模型 GPT-4o。今日放出来的 o1 预览版为中心的橙色柱形。

可以看到,在 2024 年美国数学邀请赛的比赛题和 Codeforces 算法比赛题上,o1 预览版处理数学和编程问题的才能,比起 GPT-4o,提高了 5-6 倍。而可怕的是,深橙色的柱形,代表真实的 o1,比较于 GPT-4o,提高了 8-9 倍!

终究一个图中,OpenAI 还列出了人类专家在处理博士等级科学标题的时的成功率,大约在 69.7%,而 o1 预览版和 o1,都现已超过了人类专家的水平。

OpenAI 的技能博客说到了更详细的数字,现在 o1 模型的成果,在美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和化学问题上的精确度,超过了人类博士的水平。

在大模型技能进入大众视界的两年内,一个常常为人们所运用的比方是,大模型像一个什么都懂一点的大学生,在常识专精方面远远不可,可是从地舆到地舆,最根底的常识都能懂一点点。OpenAI 的新模型,很有或许要改写人们的这一认知了。

在官方博客中,OpenAI 简略解说了这一前进背面的原理。

类似于人类在答复难题之前或许会考虑很长时刻,o1 在测验处理问题时会运用一系列思想。经过强化学习,o1 学会了锻炼其思想链并完善其运用的战略。它学会了知道并纠正过错,将扎手的进程分解为更简略的进程。当当前办法不起作用时,它会测验另一种办法。这个进程极大地进步了模型的推理才能。

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

在 OpenAI 给的事例中。GPT-4o 和 o1 模型一起答复同一个问题——读一段长文,然后做阅览了解。在 o1 模型中,会多一个选项叫做翻开思想链。

假如不翻开思想链,咱们可以看到两个模型本身给出的答案是不同的。而翻开思想链后,则会看到一段十分长的模型和自己的思想对话,解说为什么做出了不同的挑选。

选 A 吗?emm,如同不是很好。选 B 吗?如同没有相关。模型彻底在自己和自己发问和答复,终究判别出了哪个答案更好。

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

而在另一个比如中,处理化学问题时,咱们可以看到 o1 模型乃至自己在挑选多种方案比照。

规范的核算办法是这样。可是咱们也可以这么核算,但这样或许没有必要?

在屡次纠正自己之后,它得出了正确的答案。

之前,也现已有许多报导泄漏过 o1 模型可以有高推理才能的原理——这一练习办法,最早来自于斯坦福大学 2022 年开发的一种「自学推理」(Self-Taught Reasoner,STaR)。

后来研究人员进一步开发了一种名为"Quiet-STaR"的新技能,翻译过来大约为"安静的自学推理"。中心为在每个输入 token 之后刺进一个"考虑"进程,让 AI 生成内部推理。然后,体系会评价这些推理是否有助于猜想后续文本,并相应地调整模型参数。这也是人们估测 OpenAI 最早的模型项目为什么叫 Q*(读作 Q Star)的原因。

在 o1 模型呈现之前,用户一般也可以自己经过和模型对话的办法,让模型进行一步一步的考虑,也便是所谓的慢考虑,进行更精确的答复。可是很明显,o1 模型此次将思想链扩大到了彻底不同的量级上。

并且,在之前的用户 prompt 引导中,模型可以答复出什么答案,终究也还要被模型才能约束。而经过不同的练习办法练习出来的 o1 模型,很有或许可以经过自己的推理,逾越本身练习资料的约束,产出更高档和精确的答案。

在杂乱推理使命上的前进,或许对编程和科学研究两个方向发生直接的推进。

OpenAI 说到,在未来,医疗保健研究人员可以运用 o1 来注释细胞测序数据,物理学家可以运用 o1 生成量子光学所需的杂乱数学公式,一切范畴的开发人员可以运用 o1 来构建和履行多进程作业流程。

OpenAI供应了一个比如,真实做到了只运用提示词,就完成了一个游戏的编程。

而推理才能的前进,假如可以进一步消除模型的错觉,还或许对 AI 运用的建构发生直接的影响。对未来的AI安全也有活跃的影响——之前的一些经过提示词工程误导模型进行过错输出的手法,或许会直接被模型经过更强的考虑才能处理。

OpenAI o1-preview 将在今日开端可以在 ChatGPT 上运用,并供应给受信赖的API用户。

02.价格没涨,OpenAI 用 o1-mini 处理推理本钱问题

在 OpenAI 此次发布之前,曾有不少媒体爆料,新模型由于内部推理链条较长,关于推理的算力本钱的需求进一步增高,OpenAI 很有或许将进步运用模型的费用,乃至最离谱的猜想数字到达每月 2000 美金。

而此次 OpenAI 的发布,却令人惊奇,新模型的运用价格并没有上涨,尽管由于推理本钱的原因,运用次数受到了大大的约束。o1-preview 的每周约束运用条数为 30 条音讯。

除了约束运用条数,OpenAI管控推理本钱的另一个重要行动,是跟着 o1 模型的推出,一起推出了 o1-mini 版。

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

OpenAI 没有详细阐明 o1-mini 的参数量有多大,但经过技能文档可以看出,o1mini 版,和 o1 版上下文长度没有差异,乃至最大输出 token 数更高。

OpenAI 表明 o1-mini 特别拿手精确生成和调试杂乱代码,关于开发人员特别有用。作为较小的模型,o1-mini 比 o1-preview 廉价 80%,这使其成为需求推理但不需求广泛的世界常识的运用程序的强壮且经济高效的模型。

OpenAI 乃至还方案之后为一切 ChatGPT 免费用户供应 o1-mini 拜访权限。

不过,作为新模型,o1 系列模型,现在依然不能阅读网页以获取信息以及上传文件和图画。OpenAI 也提示道,GPT-4o 在短期内,在某些使命上会更强一些。

03.Scaling Law 后最重要的发展?

事实上,此次发布了新的模型,乃至不是 OpenAI 的发布中仅有重要的工作。

OpenAI 还提及了自己练习中发现的一个现象:跟着更多的强化学习(练习时核算)和更多的考虑时刻(测验时核算),o1 的功能能继续进步。扩展这种办法的约束与 LLM 预练习的约束有很大不同。

OpenAI 发布新模型,Sam Altman:耐性时间完毕了!

事实上,英伟达的具身团队领导者 Jim Fan 直接在 X 上点评了这一事情的历史意义——模型不仅仅具有练习时的 scaling law,还具有推理层面的 scaling law,双曲线的一起添加,将打破之前大模型才能的提高瓶颈。

Jim Fan 表明,2022 年,人们提出了原始的 scaling law(标准规律),大约意为跟着模型的参数量、数据量和核算量的添加,模型的功能可以不断进步。

这指的是在模型的练习进程中。而 scaling law 在本年看起来,好像现已有阻滞的意味——他说到在 self-rewarding language 文章中,感受到 3 轮自我提高好像是大言语模型的饱满极限了。

而此次 OpenAI 新模型,除了在练习时,经过增大参数量和数据量,得到了功能上的提高,一起经过添加推理时刻——也便是前面所说的模型在自我内部考虑的时刻——得到了才能上的提高。

也便是说,假如模型未来自己和自己考虑的时刻越长,得到的答案或许会越精确。这很挨近于咱们对AI的终极幻想了——像最早在 AlphaGo 中所展示出来的,AI 经过自己和自己下棋,提高自己的棋术。

OpenAI 的新模型,展示出的,是一条新的大模型的提高途径。

Jim Fan 在 X 上的一句话令人耸动:「之前,没人能将 AlphaGo 的成功复制到大模型上,运用更多的核算让模型走向超人的才能。现在,咱们现已翻过这一页了。」

回看 2023 年,许多人在问,Ilya 看到了什么?

我们都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型的确很强。

但或许,更有或许是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再悠远。

本文为极客公园原创文章,转载请联络极客君微信 geekparkGO

发表评论

快捷回复: 表情:
评论列表 (暂无评论,910人围观)

还没有评论,来说两句吧...

目录[+]