OpenAI 再次给大模型 “泡沫” 续命

09-14 684阅读 0评论

OpenAI 再次给大模型 “泡沫” 续命

从大言语模型到推理模型。

文丨贺乾明
修改丨程曼祺 黄俊杰

OpenAI 本年最重要的产品 o1 模型按期发布。AI 最大获利者英伟达的股价两天累计涨了 10%。

耗费更多算力答题的 o1,看到问题会先 “考虑” 数十秒、乃至更久,再给出回复。OpenAI 称,它答复奥赛数学题或完结编程使命时,体现远超市场上已有的大模型。

但 OpenAI CEO 山姆·阿尔特曼(Sam Altman)的好心境很快就被打断。在他宣告 o1 全量上线的推文下,排在榜首的谈论是:“究竟什么时分能用上新的语音功用??” 他马上反击:“能不能先花几个星期感谢感谢这魔法般的智能,然后再要新玩具?”

这位用户追着阿尔特曼要的不是什么新玩具,是 OpenAI 在本年 5 月就许诺行将到来的 GPT-4o 端到端语音功用。在其时的现场演示中,这个新的 AI 声响天然、反响极快,还知道什么时分插嘴,让旁人难辨真假。按官方时刻表,上千万 ChatGPT 付费用户本将在几周内用上这功用,但一向被跳票到现在。

曩昔一年里,OpenAI 的产品都是相似的 “期货”:GPT-4 已上线一年多,OpenAI 的下一代模型 GPT-5 仍然没有发布痕迹。OpenAI 本年初发布的视频模型 Sora 也没有大规划敞开,到现在都只要少量被他们选择的职业人士实践用过。

职业榜首的跳票一次次磨损着资本市场对 AI 大模型的耐性。一些我国科技巨子和大模型公司本年年中暂缓练习根底模型,把更多资源投到运用开发,或把 GPU 算力租给外部客户。他们忧虑技能没多少行进空间,开端削减投入、争夺报答。

本周之前,英伟达市值从 6 月的高点跌落超 20%,微软市值也缩水了 13%,各自蒸发了几千亿美元。微软 CFO 称,他们投在大模型范畴的数百亿美元,得等 15 年或更久才干回本。

红杉的研讨显现,上一年 AI 范畴的投入比收入多了 1200 多亿美元,本年或许会扩展到 5000 亿美元。但除了英伟达,没有几个公司见到大比例的收入添加。越来越多业内助开端评论,假如大模型的才能就到此为止,AI 泡沫会不会又一次幻灭?

“泡沫” 并不一定是坏事。新技能改动世界之前,都会呈现愿景远超实际的阶段。差异在于愿景能不能完成,什么时分完成。假如长时刻不能完成,便是泡沫幻灭、公司破产,严峻的泡沫幻灭乃至能够击垮一个范畴乃至多个经济体。假如愿景完成了,全部不过是技能行进的注脚。

OpenAI 发布的 o1,至少会暂时改动大模型现已没有行进空间的犹疑,为大模型 “泡沫” 续命。

任何新技能都需求不断行进,才有或许改动这个世界。o1 的共同之处不仅仅编程、数学、物理等范畴的功能大幅进步,也在于给一众 OpenAI 追随者和他们背面的出资者找到了行进的途径:以往算力更多用在 “回忆常识”——用很多数据练习模型,o1 则分配了更多算力在 “答题时的考虑”,即推理进程,逻辑才能大幅进步。

在此之前,大模型练习现已堕入原有 Scaling Laws 的瓶颈,模型参数规划扩展后,功能进步逐渐放缓。

专门针对数学、编程、科学问题优化的 o1-mini 还展现出了不小的运用潜力,它既能够直接帮科学家和开发者进步作业效率,也指示了在其它高价值笔直范畴开发功能、安全性都更好的模型的办法。

像平常的数次发布相同,OpenAI 精心选择了开释 o1 的机遇。据媒体报道,o1 发布前,OpenAI 正在以 1500 亿美元估值寻求 70 亿美元的新融资,潜在出资方包含苹果、英伟达、微软、阿联酋出资基金等。现在,这场资源投入比赛又多了一个持续下去的理由。

从大言语模型到 “推理模型”,o1 理强文弱

此次 OpenAI 发布了两个供用户运用的模型:o1-preview 和 o1-mini,并预告更多 o1 系列模型正在路上。

之所以将该系列命名为 o1,而非沿袭 GPT,是因为二者的练习办法有明显改变。在 OpenAI 介绍 o1 的博客文章里,屡次称其为推理模型(reasoning model),而非此前称号 GPT 时常用的大言语模型(Large Language Model)。

GPT 等传统大言语模型的全体练习逻辑是预练习(pre-training)加精调(fine-tuning):先在预练习阶段用海量数据教大模型学会猜测下一个词,然后在精调阶段让大模型学习特定范畴的常识,让人类写答复教大模型什么是人想要的答案,机器依据反应来改善。

o1 的新关键词是强化学习(Reinforcement Learning)和思想链(Chain of Thought,CoT)。

OpenAI 如此描绘这个进程:“经过强化学习,o1 学会怎样锻炼自己的思想链,并完善它所运用的战略。它学会了辨认和纠正自己的过错;将杂乱进程分解为更简略的进程;在当前办法不起作用时测验不同的办法。这极大地进步了模型的推理才能。”

2016 年打败围棋世界冠军的 AlphaGo 和后续模型 AlphaZero 就运用了强化学习,让模型自我对弈(self-play),学习在不同状况(棋局)下,用什么战略能够进步胜率。模型还能在不断测验中生成数据,用来练习模型。

OpenAI o1 运用了相似的办法:给大模型供给一步步解题的数据,让模型学着自我纠偏,学习每个进程应该怎样答复问题能得到最优答案。

“AI 模型的才能仍是来自数据,若数据里本来没有或不充分的东西,模型是学不会的,o1 适当于完成了一个组成专业数据的办法。有了这些专业数据, o1 就能学到专业才能了。” 硅基活动创始人袁进辉说。

o1 答复问题时也会把问题拆解成一系列小问题,逐渐推理答复,这便是 “思想链”。依据 OpenAI 展现,o1 答复问题的进程如下(用户运用的版别里,OpenAI 躲藏了思想链内容):

问题(原文为英语):

编写一个 bash 脚本,接纳一个矩阵(用字符串表明,格局为 '[1,2],[3,4],[5,6]'),并以相同的格局打印出该矩阵的转置。

o1-preview 的解题思路(思想链):

用户恳求编写一个 bash 脚本,该脚本能够接纳表明矩阵的字符串,例如 '[1,2],[3,4],[5,6]',并以相同的格局输出其转置。

咱们首先来了解输入和输出的格局。
输入:'[1,2],[3,4],[5,6]',它对应的矩阵是:
1 23 45 6
因而,输入是一系列由方括号包裹并用逗号分隔的行。
该矩阵的转置为:
1 3 52 4 6
因而,要求的输出为 '[1,3,5],[2,4,6]'。

整体使命:
编写一个 bash 脚本,该脚本接纳一个参数(表明矩阵的字符串),并以相同的格局输出其转置。

好的,现在咱们来考虑怎样在 bash 中解析输入字符串,构建矩阵(或许运用数组),进行转置,然后输出转置后的矩阵,坚持相同的格局。

约束条件:
-因为这是 bash,咱们有必要当心处理字符串解析。
-脚本应承受输入字符串作为参数。

办法:
-解析输入字符串以提取矩阵元素。
-将矩阵构建为一个数组的数组。
-对矩阵进行转置。
-以相同格局输出转置后的矩阵。

完成进程:
1. 将输入字符串作为参数捕获。
2. 移除一切空格(假如有的话)。
3. 解析输入字符串,将数字提取到数组中。
-因为输入格局为 '[1,2],[3,4],[5,6]',咱们能够:
--假如需求,移除外部括号。
--经过 '],' 切割字符串以获取每一行。
--对每一行,移除 '[' 和 ']',然后经过 ',' 切割获取元素。
4. 在 bash 中构建二维数组(数组的数组)。
-因为 bash 数组是一维的,咱们需求模仿二维数组。
5. 对矩阵进行转置。
-进行转置时,咱们需求将行与列交流。
6. 以所需格局输出转置后的矩阵。
-从头结构输出字符串,格局为 '[1,3,5],[2,4,6]'。

现在,逐渐开端编写代码。

潜在问题:
-Bash 自身没有原生的多维数组,因而咱们需求进行模仿。
-咱们需求处理或许是多位数的数字。

接下来,咱们能够一步步开端编写这个 bash 脚本的结构。
【略】

现在让咱们运用示例输入 '[1,2],[3,4],[5,6]' 测验这个脚本。
让我试着模仿下,会产生什么。

我会将其写下来,作为一个答案。

不论是强化学习仍是思想链,都不是 OpenAI 最早提出的技能方向。

在 o1 上线前,Google DeepMind 就在 7 月发布了用相似办法练习的 AlphaGeometry 模型更新版,能在世界奥数比赛 IMO 中拿银牌。

但 OpenAI 再一次证明了他们能够在职业根底上,首先拿出作用更惊人的模型。据 OpenAI 介绍,他们专为世界信息学奥赛练习的 o1-ioi 模型能拿到金牌。

凭仗新的练习和推理办法,OpenAI o1-preview 处理高难度数学题、处理编程使命方面大幅超越 GPT-4o。比方在比赛数学数据集 AIME 2024 上,o1-preview 得分是 GPT-4o 的 4 倍多;在编程比赛数据集 Codeforces 上,距离变成 5.6 倍。

OpenAI 再次给大模型 “泡沫” 续命

在数学比赛、编程比赛、科学问答数据集测验中,o1-preview、o1 大幅超越 GPT-4o。

OpenAI 称,现在定量上线的 OpenAI o1-preview 和 OpenAI o1-mini 仅仅前期版别,他们的下一个模型,在物理、化学、生物等有应战的测验题中,体现与博士生相似,而此前的模型大多是本科生或硕士生水平。

把技能变成实际,OpenAI 说到的贡献者有 212 人,与 GPT-4o 的文本部分的贡献者适当(234 人)。但练习 o1 需求的数据品种变多了。OpenAI 说到,o1 预练习用到的数据来自揭露数据集、合作伙伴的专有数据和内部开发的自定义数据集,而 GPT-4o 把握文本才能时,只用了前两种数据。

倾向 “推理模型” 的 o1 系列并没有全面超越 GPT-4o,言语才能是它的相对弱项。

在 OpenAI 的测验中,大多人以为 o1-preview 在数据分析、编程和数学等垂青推理的问题回答上比 GPT-4o 更好,而在个人写作、文本修改等方面,仍然是 GPT-4o 更好。

那些 GPT-4o 处理不了的问题,o1-preview 也会呈现,比方它同样会 “胡言乱语”,以为 9.11 比 9.2 更大。

OpenAI 再次给大模型 “泡沫” 续命

个人写作、文本修改等方面,GPT-4o 更好。

思想链带来的更长的呼应时刻(考虑)或许是 o1 系列实践运用中的短板。在被要求 “列出五个第三个字母是 A 的国家的姓名” 时,GPT-4o 只用 3 秒,而 o1-mini 花了 9 秒,o1-preview 花了 32 秒,是 GPT-4o 的十倍。关于简略问题根本不可用。

o1-preview 和 mini 暂时也不像 GPT-4o 那样具有阅读网页、获取信息,和处理上传的文件、图片等功用。现在看起来能最快能用 o1 进步生产力的是软件开发者,但 OpenAI 也约束了他们调用 API 的办法:每分钟只能调用 20 次,不包含函数调用、流式传输、体系音讯支撑等功用。

从练习 Scaling 到推理 Scaling,算力比赛仍将持续

在多位大模型研讨者看来,o1 最重要的改变是展现出了一种大幅进步大模型才能的新途径。

本来的 Scaling Laws 意味着,用更多数据和算力练习出参数更大的模型,功能就会更好。

而如下图, o1 展现出,让模型花更多时刻、更多算力答复问题(test-time compute),功能也会持续进步。英伟达资深 AI 科学家 Jim Fan 在交际媒体上说,这或许是自 2022 年 DeepMind 提出 Chinchill Scaling Laws(原版 Scaling Laws 上的一个优化)以来,大模型研讨中最重要的一张图。

OpenAI 再次给大模型 “泡沫” 续命

Jim Fan 还提出了大模型未来演进的一种或许:未来的模型或许将推理与常识别离,有小的 “推理中心”,一同也用很多参数来回忆现实(常识),以便在小事问答等测验中体现出色。

OpenAI 也在介绍 o1 的文章中特意说到,他们会持续开发 GPT 系列的模型。这或许预示,OpenAI 会把 o1 中运用的办法引进到下一代 GPT 模型中。

不管是 o1 成为新的干流办法,仍是 o1 与 GPT 系列结合,演化出下一代大模型,算力需求应该都会进一步进步。

OpenAI 未揭露 o1 系列的推理本钱,但从 o1 模型答复问题的时长和 OpenAI 对 o1 的运用约束能够估测,o1 比较 GPT 系列需求巨大得多的推理算力资源。

每月花 20 美元的 ChatGPT Plus 付费用户,现在每周只能用 30 次 o1-preview 和 50 次 o1-mini。而现在 GPT-4o 的约束是每周 4480 次(每 3 小时 80 次),是 o1-mini 的 90 倍,o1-preview 的 150 倍。

o1-preview 答复问题的时刻从 GPT 系列模型的秒级添加到了数十秒、乃至更久。它答复问题时处理的文本量也大幅进步。以文中展现 “思想链” 进程时罗列的编程问题为例,o1 回答时,加上思想链,处理的字符有 6632 个,是 GPT-4o 的 4.2 倍 。更长的核算时刻和更长的输出都意味着更高的算力本钱。

o1 对 AI 远景和算力消费的影响很快反映在资本市场。自本周初有媒体报道 OpenAI 行将发布新模型后,英伟达股价累计上升 10%,微软也一同上涨。

关于那些不确定技能演进方向或许一度放缓研讨根底模型的公司,现在又有新作业能够做,有新方向能够卷了。o1 的发布大约率意味着,在 “推理模型” 上,竞赛距离再一次摆开,一轮加快追逐和投入行将产生。

“是时分正派干点正事了,要不真的就不在游戏里了。” 一位我国大模型研讨者说。

题图:视觉我国

发表评论

快捷回复: 表情:
评论列表 (暂无评论,684人围观)

还没有评论,来说两句吧...

目录[+]