五大维度评测OpenAI全新o1模型：代码编写、游戏制造等才能“冷艳”，现实性知识却“翻了车”

09-14 178阅读 0评论

每经记者：郑雨航每经实习记者：岳楚鹏每经修改：兰素英

传说中的“草莓”模型今天在没有任何预告下遽然上线了！

OpenAI最新发布的模型名为o1，是系列推理模型的第一批版别，现阶段推出的是o1-preview（预览版）和o1-mini（迷你版）。

现在，o1-preview和o1-mini现已面向ChatGPT Plus和Team订阅用户敞开，而Enterprise和Edu用户将于下周初取得拜访权限。OpenAI表明，它方案向ChatGPT的一切免费用户供给o1-mini拜访权限，但没有确认发布日期。

据OpenAI介绍，在处理问题的才能方面，o1模型比以往任何模型都更挨近人类思想，而且能够“推理”数学、编码和科学使命。

为了验证新模型的才能是否正如OpenAI所声称的那么强壮，《每日经济新闻》记者从经典“草莓测验”、代码编写、小游戏制造、数学与经济学，以及现实性知识这五大维度对o1-preview模型进行了测验。

成果显现，o1-preview体现出了逾越OpenAI之前发布的大模型的编程和数学推理才能。例如，o1-preview能够编写出流通运转的代码，而且在杂乱环境中仍然能够自行推理出处理方案。而且，记者在测验进程中也感觉到，o1-preview在人性化方面也有很大的提高，体现出了真人般的考虑。不过，新模型也并非毫无缺陷，在现实性知识测验就“翻车”了。

传说中的“草莓”来了

当地时刻9月12日，OpenAI发布了一款名为o1的新模型，这是其方案中一系列“推理”模型中的第一个版别，也是此前业界盛传已久的“草莓”模型。

图片来历：X渠道

关于OpenAI来说，o1代表着它朝着类人AI的方针又迈出了一步。OpenAI以为，o1代表着一种全新的才能，这一才能被以为如此重要，以至于公司决议从当时的GPT-4模型重新开端，彻底抛弃了“GPT”品牌，从1开端命名。

OpenAI表明，将从当时的GPT-4模型重新开端，“将计数器重置为 1”，乃至抛弃了迄今为止界说了谈天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散进程，慎重而合乎逻辑地处理问题的体系，每个进程都建立在上一个进程的基础上，类似于人类的推理办法。

OpenAI首席科学家Jakub Pachocki表明，之前的模型在收到用户问询时会当即开端答复。“而这个模型（指的是o1）会慢慢来。它考虑问题，并测验分化问题，寻觅视点，尽力供给最佳答案。”这就像大多数人在幼年时被爸爸妈妈所要求的那样，先想好再说话。

OpenAI表明，o1在比赛编程问题（Codeforces）中排名第89个百分点，在美国数学奥林匹克比赛（AIME）预选赛中位列美国前500名学生之列，而且在物理、生物和化学问题的基准测验（GPQA）中超过了人类博士水平的准确度。

在OpenAI发布的研讨和博客文章中，o1看起来“推理”才能十分强壮，不只可处理高档数学和编码问题，还能解密杂乱的暗码，以及答复来自专家学者们关于遗传学、经济学和量子物理学的杂乱问题。很多图表显现，在内部评价中，o1在编码、数学和各个科学范畴的问题上现已逾越了公司最先进的言语模型GPT-4o，乃至或许逾越了人类。