OpenAI o1惊现自我意识？陶哲轩实测大受震慑，门萨智商100夺模型第一

09-14 907阅读 0评论

新智元报导

修改：修改部 HXZ

【新智元导读】OpenAI o1，在门萨智商测验中公然取得了第一名。数学大神陶哲轩实测发现，o1居然能成功辨认出克莱姆定理。而OpenAI的研讨副总裁也在此刻跳出来标明：大型神经网络或许现已有了满足算力，体现出认识了。

OpenAI o1，在IQ测验中拿到了第一名！

大佬Maxim Lott，给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测验，成果标明，o1稳居第一名。

紧随其后的，便是Claude-3 Opus和Bing Copilot，别离取得了第二名和第三名。

留意，这套智商测验题，归于门萨会员的离线智商测验，不在任何AI练习数据中，因而成果十分具有参考性。

闻名数学家陶哲轩也对o1进行了实测，发现自己向模型提出一个遣词含糊的数学问题后，它居然能成功辨认出克莱姆定理。

更巧的是，就在o1发布之后，OpenAI的研讨副总裁Mark Chen宣布观念称：现在的大型神经网络，或许现已具有满足的算力，在测验中体现出一些认识了。

信任AI具有认识的职业领导者，现在现已有了一串长长的名单，包括但不限于——

Geoffrey Hinton（人工智能教父，被引证次数最多的AI科学家）

Ilya Sutskever（被引次数第三多的AI科学家）

Andrej Karpathy

现在，业界许多人都信任AI具有认识，并且正在等候「奥弗顿之窗」进一步翻开，然后使大众乐意承受这一点。

乃至有人预言：在2024/2025年，AI一定会具有认识，因为现在模型的行为现已显着体现出感知才能了。

有网友发现，o1不仅是对经验性的STEM学科很强，它乃至可以假定出一种全新的认识理论。

有人觉得，o1向无限推理模型迈出的一小步，现已具有认识的雏形。

陶哲轩：o1竟能辨认出克莱姆定理

而在实测中，陶哲轩发现：o1模型在数学方面的的功用更强了！

首要，他提出了一个遣词含糊的数学问题，假如能查找文献并找到适宜的定理，即克莱姆定理（Cramer's theorem），就可以处理这个问题。

之前的试验中，GPT可以说到一些相关概念，但细节都是胡编乱造的无意义内容。

而这一次，o1成功辨认出了克莱姆定理，并给出了令人满意的答案。

完好答复：https://shorturl.at/wwRu2

在下面这个比方中，提出的问题是更有挑战性的复变函数剖析，成果相同好于之前的GPT系列模型。

在有许多提示词和引导的情况下，o1能输出正确且表述杰出的处理方案，但不足之处在于无法自行发生要害的概念性主意，并且犯了显着过错。

陶哲轩描述，这种体会大致相当于辅导一个才能一般但也能担任部分作业的研讨生，GPT给人的感觉则是一个彻底无法担任作业的学生。

或许只需求经过一两次迭代，再加上其他东西的集成，比方核算机代数包和证明辅助东西，就能让o1模型蜕变为「胜任的研讨生」，到时这个模型将在研讨使命中发挥重要作用。

完好答复：https://shorturl.at/ZrJyK

第三个试验中，陶哲轩要求o1模型在证明辅助东西Lean中方法化一个定理，需求先将其分化为子引理并给出方法化表述，但不需求给出证明。

定理的内容，具体来说，是将素数定理的一种方法建立为另一种方法的推论。

试验成果也很不错，因为模型了解了这个使命，并对问题进行了合理的开端分化。

但是，或许是因为练习数据中缺少关于Lean及其数学函数库的最新数据，生成的代码中也有几处过错。

虽然仍有缺点，但这次试验成果现已能让人预见到o1在数学研讨中的实践运用。

相似的模型假如针对Lean和Mathlib进行微调，并集成到集成开发环境（IDE）中，在方法化项目中将会发挥极大的作用。

完好答复：https://shorturl.at/OGtjt

核算机教授用动画揭秘：o1怎么花更多时刻考虑？

o1学会用CoT考虑更长时刻的进程中，终究是取得了哪些重要打破，才造成了要害性的进步？现在咱们只能从已有信息中做一些猜想。

比方，根据已有信息和自己的了解，科罗拉多大学博尔德分校核算机教授Tom Yeh就专门制造了一个动画，解说OpenAI是怎么练习o1模型花更多时刻考虑的。

关于练习，陈述中有十分简略的一句话：

「经过强化学习，o1 学会了锻炼其思想链并改善战略。」

这句话中的两个要害词是：强化学习（RL）和思想链（CoT）。

在RLHF+CoT中，CoT token也会被输入到奖赏模型中来取得分数，以更新LLM，然后完成更好的对齐；而在传统的RLHF中，输入只包括提示词和模型呼应。

在推理阶段，模型学会了先生成CoT token（或许需求长达30秒的时刻），然后才开端生成终究呼应。这便是模型怎么花更多时刻去「考虑」的方法。

在陈述列出的贡献者中，有两个人值得重视：

Ilya Sutskever，根据人类反应的强化学习（RLHF）的发明者，呈现他的姓名意味练习o1模型时依然用到了RLHF。

Jason Wei，闻名的思想链论文的作者。他上一年脱离Google Brain加入了OpenAI。他的呈现意味着CoT现在是RLHF对齐进程的重要组成部分。

不过，有许多重要的技术细节OpenAI并没有泄漏，比方奖赏模型是怎么练习的，怎么获取人类对「考虑进程」的偏好等等。

免责声明：动画仅代表教授的合理估测，并不确保准确性

团队共享庆功视频，共享「啊哈」时刻

关于研讨中取得重要打破的瞬间，在下面这个视频中，给了咱们更多头绪。

在发布o1模型后，团队发布了背面团队一同制造的视频。

在视频中，有人标明，自己觉得研讨中最酷的便是那个「啊哈」时刻了。

在某个特定的时刻点，研讨发生了意想不到的打破，全部遽然就变得很明晰，好像彻悟一般灵光乍现。

所以，团队成员们别离阅历了怎样的「啊哈」时刻呢？

有人说，他感觉到在练习模型的进程中，有一个要害的时刻，便是当他们投入了比曾经更多的算力，初次生成了十分连接的CoT。

就在这一刻，一切人都惊喜交加：很显着，这个模型跟曾经的有着显着的差异。

还有人标明，当考虑到练习一个具有推理才能的模型时，首要会想到的，是让人类记载其思想进程，据此进行练习。

对他来说，啊哈时刻便是当他发现经过强化学习练习模型生成、优化CoT，作用乃至比人类写的CoT还好的那一刻。

这一时刻标明，咱们可以经过这种方法扩展和探究模型的推理才能。

这一位研讨者说，自己一直在尽力进步模型处理数学问题的才能。

让他很懊丧的是，每次生成成果后，模型好像从不质疑自己做错了什么。

但是，当练习其间一个前期的o1模型时，他们惊讶地发现，模型在数学测验中的得分遽然有了明显进步。

并且，研讨者们可以看到模型的研讨进程了——它开端自我反思、质疑自己。

他惊叹道：咱们总算做出了不一样的东西！

这种感触极端激烈，那一瞬间，好像一切东西都会聚到了一同。

Open o1团队敞开团队问答，直面质疑

我们对o1模型的细节都有许多疑问，因而，OpenAI o1团队也标明，将在X上安排一个AMA（Ask Me Anything）的活动，经过下方谈论和用户互动。

网友们十分活跃，提出了许多要害细节问题。

比方，有没有方法逼迫模型，让它考虑的时刻长一点？

团队的答复是：现在还没有这个选项，但会考虑改善，让用户更好地操控模型考虑的时刻。

有人向Jason Wei提问道：在o1范式下见过什么逆缩放示例，看到模型变得更差？此外，他还质疑现在的基准测验排名缺少满足的依据。

Jason Wei答复说，自己并不知道，信任其他人见过。在某些类型的提示下，OpenAI o1-preview好像并不比GPT-4o好多少，乃至还稍差一些。

而关于LLM排行榜怎么公正比较的问题，Jason Wei标明自己也不知道。但他可以必定：无论怎样尽力地提示GPT-4o，都不或许让它取得IOI金牌。

还有人提出了一个许多人都感到困惑的问题：o1终究是不是一个在暗地运转CoT，然后供给答案或模型的体系呢？它是否运用了特别token进行推理，在输出时躲藏了这些token？

Noam Brown答复说，自己不会说o1是一个体系，它是一个模型，但与之前的模型不同。这个答复，看起来有点语焉不详。

还有人采访道：o1体现出的最令人深入的一点是什么？

Noam Brown答复说，自己给模型下指令让它自己答复这个问题。

在CoT中，模型开端自己给自己出难题测验自己，来确认自己的才能水平。一个模型会这么做，就满足让人形象深入的了。

Hyung Won Chung则标明，模型对哲学问题的考虑进程较为引人入胜。比方，生命是什么？

活动完毕后，大V「Tibor Blaho」专门写了一篇总结，关于团队的答复，做出了短小精悍的归纳——

模型称号和推理范式

OpenAI o1的命名代表了AI才能的新水平；计数器重置为1

「Preview」标明这是完好模型的前期版别

「Mini」意味着这是o1模型的较小版别，针对速度进行了优化

「o」代表OpenAI

o1不是一个「体系」；它是一个经过练习的模型，在回来终究答案之前生生长思想链

o1的图标标志性地标明为一个具有特殊才能的外星生命

o1模型的规划和功用

o1-mini比o1-preview小得多且更快，因而未来将供给给免费用户

o1-preview是o1模型的前期检查点，既不大也不小

o1-mini在STEM使命中体现更好，但国际常识有限

比较o1-preview，o1-mini在某些使命中体现出色，尤其是与代码相关的

o1的输入token核算方法与GPT-4o相同，运用相同的分词器（tokenizer）

o1-mini可以探究比o1-preview更多的思想链

输入token上下文和模型才能

o1模型行将支撑更大的输入上下文

o1模型可以处理更长、更敞开式的使命，与GPT-4o比较，减少了对输入分块的需求

o1可以在供给答案之前生生长思想链，这与之前的模型不同

现在还没有方法在思想链推理进程中暂停以增加更多上下文，但正在为未来的模型探究这一功用

东西、功用和行将推出的特性

o1-preview现在还不能运用东西，但方案支撑函数调用、代码解说器和阅读功用

东西支撑、结构化输出和体系提示将在未来更新中增加

用户或许会在未来版别中取得对考虑时刻和token约束的操控权

方案在API中启用流式处理并考虑推理进展

多模态才能已内置于o1中，可以在MMMU等使命中完成SOTA的功用

思想链（CoT）推理

o1会在推理进程中生成躲藏的思想链

没有方案向API用户或ChatGPT泄漏思想链token

思想链token被总结，但不确保忠诚于实践推理进程

提示词中的指令可以影响模型怎么考虑问题

强化学习（RL）被用来改善o1中的思想链，仅依托提示的GPT-4o在功用上无法对抗

考虑阶段看起来较慢是因为它总结了考虑进程，而答案的生成一般更快

API和运用约束

o1-mini对ChatGPT Plus用户有每周50次提示的约束

在ChatGPT中，一切提示词的计数是相同的

跟着时刻的推移，将推出更多API拜访层级和更高的运用约束

API中的提示缓存是一个很受欢迎的需求，但现在还没有时刻表

定价、微谐和扩展

o1模型的定价估计将遵从每1-2年降价的趋势

一旦运用约束进步，将支撑批量API定价

微调在道路图上，但现在还没有时刻表

o1的扩展遭到研讨和工程人才的约束

推理核算的新扩展范式或许会为未来几代模型带来明显收益

反向扩展现在还不明显，但个人写作提示显现o1-preview的体现仅略优于GPT-4o（乃至略差）

模型开发和研讨洞悉

o1运用强化学习进行练习然后完成推理才能

o1在诗篇等横向使命中展现出了创造性思想和强壮的功用

o1的哲学推理和泛化才能，如破译暗码，令人形象深入

研讨人员运用o1创建了一个GitHub机器人，可以ping正确的CODEOWNERS进行审阅

在内部测验中，o1经过自问难题来衡量其才能

正在增加广泛的国际范畴常识，并将在未来版别中改善

方案在o1-mini的未来迭代中运用更新的数据（现在为2023年10月）

提示技巧和最佳实践

o1获益于供给边际事例或推理风格的提示

与前期模型比较，o1对提示中的推理头绪更灵敏

在检索增强生成（RAG）中供给相关上下文可以进步功用；不相关的块会对推理发生负面影响

一般反应和未来改善

因为还处在前期测验阶段，o1-preview的运用约束较低，但之后会有所增加

正在活跃改善推迟和推理时刻

杰出的模型才能

o1可以考虑「生命是什么？」这类哲学问题

研讨人员发现o1在处理杂乱使命和从有限指令中泛化的才能令人形象深入

o1的创造性推理才能，如自问自答以衡量其才能，展现了其高水平的问题处理才能

参考资料：

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523

相关阅读

发表评论取消回复

评论列表（暂无评论，907人围观）

还没有评论，来说两句吧...

目录[+]