“编程作为一个工作在今天完结”,OpenAI新模型o1的可怕之处

09-13 428阅读 0评论

本文来自微信大众号:果壳 (ID:Guokr42),作者:翻翻,修改:odette,题图来自:AI生成


还记得之前OpenAI的高层大地震吗?


引发了Sam Altman被免除、联合创始人Greg Brockman离任、OpenAI内部矛盾不断激化的,是一个名叫Q*(读作Q-Star)的项目。


据知情人士泄漏,其时Q*项目取得了严重进展,现已能够处理根本的数学问题。与只能处理有限数量运算的核算器不同,与每次都给同一道题不同答案的GPT-4不同,Q*或许现已有了归纳、学习和了解的才能,而这正是迈向AGI要害的一步。OpenAI的研究人员向董事会致信正告,Q*的严重发现或许要挟全人类,而Sam Altman隐瞒了这一点。


OpenAI内部天翻地覆,而OpenAI自身从未正面回应过Q*的存在。


今日,OpenAI忽然发布了一个新模型,这个模型现在仍是前瞻版,它便是传说中的Q*,后来的代号“Strawberry”,现在的OpenAI o1-preview。


处理杂乱问题的新推理模型,和ChatGPT不是一个系列了|OpenAI


o,仍是“omini”,一应俱全的o,只不过据OpenAI表明,这次的模型“代表了人工智能的新高度”,和之前的大模型在作业方式上大有差异,因而能够独自建立一个新系列,从1开端从头算起(GPT5:我老了!)


至于这个模型是不是像Ilya Sutskever和其他反水的OpenAI前中心科学家判别的那样会“要挟人类”、在品德束缚不完善的情况下把人类推动AGI(通用人工智能)年代,咱们能够看完文章再自己判别。


o1,跑赢全部


首要是耳熟能详的跑分环节。


每一代大模型横空出世,都会跑出空前绝后的新高度,但这次的o1有实质的不同。


现在比较盛行的大模型大多都以谈天机器人的方式呈现,考虑途径难以解说,并且发展方向是多模态(能说能看能听),在口气和反响方面越来越像人。o1和它们纷歧样。


首要它的方针不是越来越快,乃至是越来越慢。


OpenAI科学家Noam Brown称,现在o1几秒就能给出答案,但未来它要能进行几小时、几天,乃至几周的考虑。之后附上了一张图,o1在十几秒的考虑后给一个病例做出了确诊。Noam Brown的言下之意,推理时刻长,意味着模型能构建更长的思想链,进行更深化的考虑。



其次,o1打破了之前大言语模型的死穴,数学。


AIME,美国数学邀请赛,比奥赛简略点,比SAT难许多,一般用来选拔全美国数学最优异的高中生。让GPT4-o来写邀请赛的题,只得了12分,但o1一次性答题得了74分。假如采样1000次,再对1000个样本进行评分函数从头排序的话(这样更能反映模型的希望水平),o1得了93分,能够跻身全美前500 名,能够入围美国数学奥赛了。


o1和GPT-4o体现比照,数学上的前进非常大|OpenAI


让o1去写2024年世界信息学奥林匹克比赛(IOI)的题,它在10小时内,每题最多答应提交50次的情况下,取得了213分,在人类选手里排前49%。假如把提交次数放开到10000次,o1能得362.14分,能够拿到IOI金牌保送清华。


在实践测验中,运用的是o1的微调版别,不是咱们能用的前瞻版别|OpenAI


别的还有许多有的没的测验。比如在GPQA(一个归纳了理化生的智力测验)里,o1在某些问题上超越了相关范畴的博士。


简而言之,在现已很强的范畴内卷早就不是o1的意图,在大言语模型不拿手的杂乱逻辑上完成打破才是。


退一步,进两步


就像上面说的,o1的反响速度变慢了。


它会花更多时刻考虑,然后再做出反响,然后不断完善思想进程,测验不同战略,并从过错中学习。这一点很可怕。


并且o1现在不是个多模态的模型,OpenAI用了两年让大模型能看能听,今朝返璞归真了,o1只能承受字符输入。


变慢和变单调,对o1来说,是退一步进两步。现已用上o1的人表明o1是他们用过的最聪明的模型,和它的对话现已逾越了之前的小打小闹范畴。


在一个测验里,用户问了o1一个逻辑悖论问题:“这个问题的答案里有几个字?”


o1想了十秒钟,并且展现了考虑进程。首要它想到,这是一个自指悖论,或许是递归问题,没有确认答案的时分就无法确认答案的字数,“防止不必要的表述对答复的明晰简练很重要”。下一步是核算字数,需要让语句中呈现的数字和语句的字数相匹配。然后它列举了许多语句,在里面找出最合适的匹配选项,它发现“这有五个字”有五个字,所以把语句结构换成完好的答复后,五应该换成七。


所以它答复:“答案里有七个字。”


这个推理进程现已和我的推理进程差异不大了|X


在另一个比如里,o1答复“straberry里有几个r”这个简略的问题,用了5.6秒,631个token。



从上面的比如,能够看出o1的作业方式现已和ChatGPT有了实质差异。现在的o1加入了推理token,会把一个问题拆分红多个过程,再别离考虑,之后再除掉推理token生成答案。


下图展现了思路链的作业方式,这也解说了为什么o1的呼应速度变慢了。


在用o1的时分,无妨用一些经典的逻辑问题和数学问题来查验它的才能


或许在答复简略问题的时分,是否进行多轮推理的差异并不显着,但假如是用来处理写代码、做数学题,和科学范畴的杂乱问题,这种考虑才能便是必不可少的了。


OpenAI在论文中说,现在,医疗人员能够用o1来标示细胞测序数据,物理学家能够用o1生成量子光学所需的杂乱数学公式,各范畴的开发人员能够运用o1来构建和履行多过程作业流程。


更重要的是,这是一种思想形式的雏形,是才智的前期形状。


新的模型,新的习气


因为o1的作业方式现已和ChatGPT纷歧样了,之前看到的那些教你写prompts的教程也不再适用——现在的情况下,过多的描绘只会耗费海量的token,而纷歧定会取得更好的成果。


为了让一切用户都理解这一点,OpenAI写了新的token攻略。在攻略中,OpenAI阐明,在o1里最好的prompts是直接而简练的,指挥模型一步一步做或许给若干涣散的提示词或许会拔苗助长。以下是几个官方主张:


  • Prompts要简略直接。模型对简略明晰的指令呼应作用最好,不需要过多的辅导。


  • 在prompts中防止思想链。o1会自己进行内部推理,因而引导它一步一步考虑和解说你的考虑途径都是没用的。


  • 最好运用分隔符来进步明晰度。用“”、<>、§等分隔符,明晰地区别prompts的不同部分,以协助模型分批处理问题。


  • 约束检索增强生成中的额定上下文。只提供最相关的信息,防止模型过度考虑。



看到第三条的时分,我对这个格局产生了一丝了解的感觉。未来的程序员很有或许要用自然言语编程,根本的指令仍是那些,只不过变成了大白话。依照最新的攻略,一个好的prompts看起来会是这样的:


<写一个贪吃蛇游戏>

<要3D的>

<蛇碰到边框游戏完毕>


或许这样的:


§主持人§作家§酒吧老板§油画家§皮匠§银匠§歌手§手鼓演员§背包客§黄金左脸§法国骑士§禅宗弟子§


其他的就交给模型自己想去吧。


给我一分钟,做出3D贪吃蛇


用贪吃蛇举比如是有原因的。o1发布不到一天,就有人用它做了许多测验,其中就包含3D贪吃蛇。


X上的@Ammaar Reshi用了极端简略的prompts,仅用一分钟的时刻就写出了一个3D贪吃蛇,并且o1还手把手教他怎样用代码。


学会写prompts了吗?|@Ammaar Reshi


作用尽管有点粗陋,但谁都不能说它不是贪吃蛇。


并且还挺好玩的|@Ammaar Reshi


网友@James Wade用o1做了个数据分析app,能显现每个散布的简略描绘和示例,只用了15分钟,这还包含了布置的时刻。他说:之前从来没有想过做这样的东西,之前太麻烦了。


作用如图|@James Wade


另一位作业了16年的全栈工程师@Dallas Lones,用几分钟做了一个React Native全栈开发App之后慨叹道,自己最初没有赶快创业,现在这门手工现已成了年代的眼泪。他说,“编程作为一个工作,在今日正式终结了”。



还有更多的人在应战o1的极限,现已有人玩起了“看谁的问题更刁钻能让o1考虑的时刻最长”的游戏。



现在,o1先对ChatGPT Plus和Team用户敞开,而API拜访权限将首要敞开给在OpenAI API上花费超越1000美元的5级用户。下一步,OpenAI将逐渐向免费用户敞开低配版的o1-mini。


这会是人类的落日吗?


本文来自微信大众号:果壳 (ID:Guokr42),作者:翻翻,修改:odette

发表评论

快捷回复: 表情:
评论列表 (暂无评论,428人围观)

还没有评论,来说两句吧...

目录[+]