“编程作为一个工作在今天完结”，OpenAI新模型o1的可怕之处

09-13 428阅读 0评论

本文来自微信大众号：果壳（ID：Guokr42），作者：翻翻，修改：odette，题图来自：AI生成

还记得之前OpenAI的高层大地震吗？

引发了Sam Altman被免除、联合创始人Greg Brockman离任、OpenAI内部矛盾不断激化的，是一个名叫Q*（读作Q-Star）的项目。

据知情人士泄漏，其时Q*项目取得了严重进展，现已能够处理根本的数学问题。与只能处理有限数量运算的核算器不同，与每次都给同一道题不同答案的GPT-4不同，Q*或许现已有了归纳、学习和了解的才能，而这正是迈向AGI要害的一步。OpenAI的研究人员向董事会致信正告，Q*的严重发现或许要挟全人类，而Sam Altman隐瞒了这一点。

OpenAI内部天翻地覆，而OpenAI自身从未正面回应过Q*的存在。

今日，OpenAI忽然发布了一个新模型，这个模型现在仍是前瞻版，它便是传说中的Q*，后来的代号“Strawberry”，现在的OpenAI o1-preview。

处理杂乱问题的新推理模型，和ChatGPT不是一个系列了｜OpenAI

o，仍是“omini”，一应俱全的o，只不过据OpenAI表明，这次的模型“代表了人工智能的新高度”，和之前的大模型在作业方式上大有差异，因而能够独自建立一个新系列，从1开端从头算起（GPT5：我老了！）。

至于这个模型是不是像Ilya Sutskever和其他反水的OpenAI前中心科学家判别的那样会“要挟人类”、在品德束缚不完善的情况下把人类推动AGI（通用人工智能）年代，咱们能够看完文章再自己判别。

o1，跑赢全部

首要是耳熟能详的跑分环节。

每一代大模型横空出世，都会跑出空前绝后的新高度，但这次的o1有实质的不同。

现在比较盛行的大模型大多都以谈天机器人的方式呈现，考虑途径难以解说，并且发展方向是多模态（能说能看能听），在口气和反响方面越来越像人。o1和它们纷歧样。

首要它的方针不是越来越快，乃至是越来越慢。

OpenAI科学家Noam Brown称，现在o1几秒就能给出答案，但未来它要能进行几小时、几天，乃至几周的考虑。之后附上了一张图，o1在十几秒的考虑后给一个病例做出了确诊。Noam Brown的言下之意，推理时刻长，意味着模型能构建更长的思想链，进行更深化的考虑。

其次，o1打破了之前大言语模型的死穴，数学。

AIME，美国数学邀请赛，比奥赛简略点，比SAT难许多，一般用来选拔全美国数学最优异的高中生。让GPT4-o来写邀请赛的题，只得了12分，但o1一次性答题得了74分。假如采样1000次，再对1000个样本进行评分函数从头排序的话（这样更能反映模型的希望水平），o1得了93分，能够跻身全美前500 名，能够入围美国数学奥赛了。

o1和GPT-4o体现比照，数学上的前进非常大｜OpenAI

让o1去写2024年世界信息学奥林匹克比赛（IOI）的题，它在10小时内，每题最多答应提交50次的情况下，取得了213分，在人类选手里排前49%。假如把提交次数放开到10000次，o1能得362.14分，能够拿到IOI金牌保送清华。

在实践测验中，运用的是o1的微调版别，不是咱们能用的前瞻版别｜OpenAI

别的还有许多有的没的测验。比如在GPQA（一个归纳了理化生的智力测验）里，o1在某些问题上超越了相关范畴的博士。

简而言之，在现已很强的范畴内卷早就不是o1的意图，在大言语模型不拿手的杂乱逻辑上完成打破才是。

退一步，进两步

就像上面说的，o1的反响速度变慢了。

它会花更多时刻考虑，然后再做出反响，然后不断完善思想进程，测验不同战略，并从过错中学习。这一点很可怕。

并且o1现在不是个多模态的模型，OpenAI用了两年让大模型能看能听，今朝返璞归真了，o1只能承受字符输入。

变慢和变单调，对o1来说，是退一步进两步。现已用上o1的人表明o1是他们用过的最聪明的模型，和它的对话现已逾越了之前的小打小闹范畴。

在一个测验里，用户问了o1一个逻辑悖论问题：“这个问题的答案里有几个字？”

o1想了十秒钟，并且展现了考虑进程。首要它想到，这是一个自指悖论，或许是递归问题，没有确认答案的时分就无法确认答案的字数，“防止不必要的表述对答复的明晰简练很重要”。下一步是核算字数，需要让语句中呈现的数字和语句的字数相匹配。然后它列举了许多语句，在里面找出最合适的匹配选项，它发现“这有五个字”有五个字，所以把语句结构换成完好的答复后，五应该换成七。

所以它答复：“答案里有七个字。”

这个推理进程现已和我的推理进程差异不大了｜X

在另一个比如里，o1答复“straberry里有几个r”这个简略的问题，用了5.6秒，631个token。

从上面的比如，能够看出o1的作业方式现已和ChatGPT有了实质差异。现在的o1加入了推理token，会把一个问题拆分红多个过程，再别离考虑，之后再除掉推理token生成答案。

下图展现了思路链的作业方式，这也解说了为什么o1的呼应速度变慢了。

在用o1的时分，无妨用一些经典的逻辑问题和数学问题来查验它的才能

或许在答复简略问题的时分，是否进行多轮推理的差异并不显着，但假如是用来处理写代码、做数学题，和科学范畴的杂乱问题，这种考虑才能便是必不可少的了。

OpenAI在论文中说，现在，医疗人员能够用o1来标示细胞测序数据，物理学家能够用o1生成量子光学所需的杂乱数学公式，各范畴的开发人员能够运用o1来构建和履行多过程作业流程。

更重要的是，这是一种思想形式的雏形，是才智的前期形状。

新的模型，新的习气

因为o1的作业方式现已和ChatGPT纷歧样了，之前看到的那些教你写prompts的教程也不再适用——现在的情况下，过多的描绘只会耗费海量的token，而纷歧定会取得更好的成果。

为了让一切用户都理解这一点，OpenAI写了新的token攻略。在攻略中，OpenAI阐明，在o1里最好的prompts是直接而简练的，指挥模型一步一步做或许给若干涣散的提示词或许会拔苗助长。以下是几个官方主张：