Scaling Law堕入困局，强化学习才是全村的期望？

09-12 818阅读 0评论

这几天，发生了三件事：

听完了小珺和广密的 AI 职业 Q3 总结性的播客，讲到了预练习的 Scaling Law 瓶颈，以及 Self-Play RL 的重要性；

The Information 爆料，OpenAI行将在2周内发布新的草莓模型；

ChatGPT Pro 订阅方案开端灰度，价格200美金/月，上去用了一下却发现什么都没有。

这三件事关联在一同，凑集出了一些一些行将成为一致的信息。

一、Scaling Law 的困局

整个大言语模型职业现已好久没有大的前进了。

这是所有人一起的感触。

在模型到达数千亿参数之后，练习本钱和难度上升了许多，但好像上万亿也并不能带来突变的提高。

Ilya 更是直言，我们现已不知道议论 Scaling Law 的时分在 Scaling 什么了，而他对 Scaling 有了一些新的思路。

广密说道，硅谷逐步构成的一致便是RL强化学习是接下来的打破点。

而预练习方面，80%的公司会抛弃预练习。

二、Self-play RL 全村的期望

预练习玩不起，强化学习就成了全村的期望。

榜首个超出预期的是 Claude Sonnet 3.5，代码才能逾越了 GPT-4o，赋能 Cursor ，让 AI Coding 成了最热的论题。在代码才能方面的打破，运用的办法或许便是 RL。

第二个超出预期的是 DeepSeek，起步很晚，可是专心提高模型的推理、代码、数学才能，最近把 Coder 和 Chat 模型兼并，代码水平挨近 GPT-4o，在国内是断档榜首的存在。

这两家公司的共性便是：单点打破。

如果说大言语模型的特色是通用智能的提高， RL 的特色便是单点打破。

而推理、代码、数学、Agent 便是现在价值最高的生产力范畴，最适合做单点打破。

三、草莓模型，两周驾到

这部分信息昨日来自 The Information 的报导：

OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks， according to two testers involved with the model.

据两名测验者泄漏，OpenAI 方案在未来两周内发布“Strawberry”的纯文本版别。

Early impressions indicate it’s somewhat underwhelming， primarily using chain-of-thought prompting. Responses take 10-20 seconds， making it slower than expected.

开始形象标明，它有些不及预期，主要是运用链式思想提示。呼应时刻为 10 到 20 秒，比预期的慢。

While testers found its performance slightly better than GPT-4o， Strawberry struggles with short， simple queries and has issues with memory integration.

尽管测验人员发现它的才能略优于 GPT-4o，但 Strawberry 在处理简略 Query 时体现欠安，而且在回忆方面存在问题。

The model lacks image integration， making it exclusively text-based for now.

该模型现在不支持图画集成，因而只能处理文本。

It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times， diverging from the current pricing structure of ChatGPT.

估计 Strawberry 会设定速率约束，并或许为需求更快呼应时刻的用户推出更高价位的套餐，这与现在的 ChatGPT 定价结构有所不同。

四、ChatGPT Pro 上线，200美金/月

前几天有报导 OpenAI 考虑上一个 2000美金/月的订阅，几乎太张狂了。成果今日 OpenAI 总算发布了实践的订阅价格是：200美金/月……

不知道是不是因为有2000美元的价格作衬托，感觉200美元的话，还行？

这个200美金的订阅买完，用了一下，发现除了能够不定量运用 4o，并没有什么新的东西。

所以猜想仅有的或许便是行将发布的草莓的价格。

卡兹克对草莓的一句话总结：根据新范式Self-play RL所做的，在数学、代码才能上强到爆破、且具有自主为用户履行浏览器/体系操作等级的新模型。更智能、更慢、更贵。

为什么这么贵？简单说这便是更高智能的价值。

从功效视点来说，草莓模型的特色是：代码、数学、推理才能、Agent 才能超强，这几项才能都是高价值的，但说代码才能，如果能比现在的 Claude 3.5 再显着好一截，200美金一个月也是能承受的。

从本钱视点来说，草莓模型每次答复，会进行很多的内部“考虑”，会长达10~20秒，其算力耗费本钱应该在GPT4的10倍以上。

从原理上来说，草莓的办法 Self-play RL 自身需求巨大的推理本钱进行练习，而且因为非实时性，这代模型的价值或许是组成数据，而非直接运用，而高质量数据的价格十分贵重，200美金也就够博士生标个几条吧。

已然定价已出，就等 OpenAI 11月的 dev day 发布模型了，本年 AI 职业的重头戏，会是新的里程碑仍是平平如苹果发布会，让我们拭目而待！