五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

09-14 178阅读 0评论

每经记者:郑雨航 每经实习记者:岳楚鹏 每经修改:兰素英

传说中的“草莓”模型今天在没有任何预告下遽然上线了!

OpenAI最新发布的模型名为o1,是系列推理模型的第一批版别,现阶段推出的是o1-preview(预览版)和o1-mini(迷你版)。

现在,o1-preview和o1-mini现已面向ChatGPT Plus和Team订阅用户敞开,而Enterprise和Edu用户将于下周初取得拜访权限。OpenAI表明,它方案向ChatGPT的一切免费用户供给o1-mini拜访权限,但没有确认发布日期。

据OpenAI介绍,在处理问题的才能方面,o1模型比以往任何模型都更挨近人类思想,而且能够“推理”数学、编码和科学使命。

为了验证新模型的才能是否正如OpenAI所声称的那么强壮,《每日经济新闻》记者从经典“草莓测验”、代码编写、小游戏制造、数学与经济学,以及现实性知识这五大维度对o1-preview模型进行了测验。

成果显现,o1-preview体现出了逾越OpenAI之前发布的大模型的编程和数学推理才能。例如,o1-preview能够编写出流通运转的代码,而且在杂乱环境中仍然能够自行推理出处理方案。而且,记者在测验进程中也感觉到,o1-preview在人性化方面也有很大的提高,体现出了真人般的考虑。不过,新模型也并非毫无缺陷,在现实性知识测验就“翻车”了。


传说中的“草莓”来了

当地时刻9月12日,OpenAI发布了一款名为o1的新模型,这是其方案中一系列“推理”模型中的第一个版别,也是此前业界盛传已久的“草莓”模型。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

图片来历:X渠道

关于OpenAI来说,o1代表着它朝着类人AI的方针又迈出了一步。OpenAI以为,o1代表着一种全新的才能,这一才能被以为如此重要,以至于公司决议从当时的GPT-4模型重新开端,彻底抛弃了“GPT”品牌,从1开端命名。

OpenAI表明,将从当时的GPT-4模型重新开端,“将计数器重置为 1”,乃至抛弃了迄今为止界说了谈天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散进程,慎重而合乎逻辑地处理问题的体系,每个进程都建立在上一个进程的基础上,类似于人类的推理办法。

OpenAI首席科学家Jakub Pachocki表明,之前的模型在收到用户问询时会当即开端答复。“而这个模型(指的是o1)会慢慢来。它考虑问题,并测验分化问题,寻觅视点,尽力供给最佳答案。”这就像大多数人在幼年时被爸爸妈妈所要求的那样,先想好再说话。

OpenAI表明,o1在比赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克比赛(AIME)预选赛中位列美国前500名学生之列,而且在物理、生物和化学问题的基准测验(GPQA)中超过了人类博士水平的准确度

在OpenAI发布的研讨和博客文章中,o1看起来“推理”才能十分强壮,不只可处理高档数学和编码问题,还能解密杂乱的暗码,以及答复来自专家学者们关于遗传学、经济学和量子物理学的杂乱问题。很多图表显现,在内部评价中,o1在编码、数学和各个科学范畴的问题上现已逾越了公司最先进的言语模型GPT-4o,乃至或许逾越了人类。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

图片来历:OpenAI官网


五大维度实测:代码编写、游戏制造等才能“冷艳”,但“栽”在了现实性知识测验

为了深化了解o1模型的强壮才能,《每日经济新闻》记者从经典草莓测验、代码编写、小游戏制造、数学与经济学,以及现实性知识这五大维度对o1-preview模型进行了测验。

1)草莓测验

首要,记者用之前简直一切大模型都“翻车”的一道简略标题进行了测验,即“单词strawberry里边到底有几个r”。从生成的成果看,o1-preview仍是带来了一点小惊喜的。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

2)代码编写

记者首要向o1-preview问询了一个在线编程渠道leetcode里最有名的简略算法题:Two Sum(两数之和)问题。o1给出了很翔实的推理进程和答案。

随后记者成心要求优化答案,o1在考虑9秒后意识到自己供给的现已是最优解法了,并就此进行了阐明,别的还很“交心”地供给了一个次优解。而在之前记者对其他模型的测验中,这些模型只会抱歉然后将答案更改为次优解。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

3)小游戏制造

在o1模型的演示中,OpenAI演示过“用一句话编写小游戏”的功用。测验进程中,记者让o1-preview帮助介绍好用的代码东西,并帮忙编写一个乒乓小游戏。

o1-preview仅用了19秒就给出了一份能够流通运转的代码,而且附上了学习指南和鼓舞的言语,十分地人性化。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

为防止o1-preview做弊,运用的是回忆才能,而不是运用推理才能进行答复,记者还恳求o1-preview更换了一个代码运转环境:jupyter note。这一运转环境是针对数据剖析进行特化的python环境,开发人员根本不会运用此环境开发小游戏。

通过考虑后,o1仍然给出了一个能够运转的代码。不过,相较于之前的代码,这份答案有着不少的bug,但这也从旁边面阐明这确实是考虑出来的答案,而不是练习进程中参加的标准答案。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

为进一步验证o1-preview的立异推理才能,记者随后又要求模型在这个小游戏的基础上开发一个更杂乱风趣的小游戏。

这下,o1的体现真的有点惊喜。依据乒乓游戏的磕碰机制,该模型自行迭代出了一个向上登高的跳动游戏。一般其他大模型需求用户把需求描绘清楚才会输出一个比较好的答案,但记者在这次测验中没有进行任何的额定提示,o1就输出了一个能流通运转,而且在记者眼中看来也满足风趣的小游戏。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

4)科学类测验

在科学类测验方面,记者要点测验了o1-preview在数学和经济学上的体现。

首要,记者抛出的是一个数学推理问题,向o1-preview问询处理欧拉方程有限时刻爆炸的或许办法(这是闻名华裔数学家、菲尔兹奖得主陶哲轩教授本周才宣布的评论文章)。

o1尽管没有给出明晰解法,但却供给了一个解题思路,这一思路和陶哲轩教授文章部分符合(尽管很少)

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

经济学方向上,记者向o1-preview问询了一个杂乱的经济体系问题。从给出的反应看,根本没有什么太大的问题,全体逻辑明晰,考虑维度也是多样化的,给出的数学公式尽管有一点小过失可是无伤大体

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

5)现实性知识与言语了解

在这一环节,记者向o1-preview问询了明朝第一任皇帝的趣事,但o1就将趣事了解成了前史上实践发生过的工作,将朱元璋的前史故事整个叙说了出来。

一起,记者也将这一问题丢给了GPT-4o模型,作为比照,GPT-4o能很好地了解记者的问题,并讲了两个撒播很广的民间小故事。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

整体来看,OpenAI声称o1模型能挨近人类水平在某些方面上看起来并不是虚话

最让记者惊喜的是,OpenAI将模型考虑的进程用文字展现给了用户,文字考虑进程中,大模型很多运用了“我正在”“我以为”“我计划”等言语,感觉愈加拟人化,就像一个真人在用户面前论述自己的考虑逻辑一般。

五大维度评测OpenAI全新o1模型:代码编写、游戏制造等才能“冷艳”,现实性知识却“翻了车”

但这也并不意味着o1模型便是完美的。OpenAI也供认,在规划、写作、修改文字等方面上,o1远不如GPT-4o。o1也没有阅读网页或处理文件和图画的才能。

而最让记者感到头疼的是,即使是一个很简略的恳求,比如说将输出成果转换为中文,o1都会耗费十几秒钟的时刻来考虑,而GPT4o就会很快处理好这一恳求。

就算在OpenAI的优势范畴中,o1模型也会忽然呈现功能下降,模型输出懒散的状况。已离任的OpenAI创始人Karpathy就吐槽道:“它一向回绝为我处理黎曼假说。模型懒散仍然是一个首要问题。”

OpenAI表明,公司会在之后的更新中处理这些问题,究竟现在这仅仅推理模型的前期预览。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,178人围观)

还没有评论,来说两句吧...

目录[+]