Scaling Law堕入困局,强化学习才是全村的期望?

09-12 818阅读 0评论

这几天,发生了三件事:


  • 听完了小珺和广密的 AI 职业 Q3 总结性的播客,讲到了预练习的 Scaling Law 瓶颈,以及 Self-Play RL 的重要性;


  • The Information 爆料,OpenAI行将在2周内发布新的草莓模型;


  • ChatGPT Pro 订阅方案开端灰度,价格200美金/月,上去用了一下却发现什么都没有。


这三件事关联在一同,凑集出了一些一些行将成为一致的信息。


一、Scaling Law 的困局


整个大言语模型职业现已好久没有大的前进了。


这是所有人一起的感触。


在模型到达数千亿参数之后,练习本钱和难度上升了许多,但好像上万亿也并不能带来突变的提高。


Ilya 更是直言,我们现已不知道议论 Scaling Law 的时分在 Scaling 什么了,而他对 Scaling 有了一些新的思路。


广密说道,硅谷逐步构成的一致便是RL强化学习是接下来的打破点。


而预练习方面,80%的公司会抛弃预练习。


二、Self-play RL 全村的期望


预练习玩不起,强化学习就成了全村的期望。


榜首个超出预期的是 Claude Sonnet 3.5,代码才能逾越了 GPT-4o,赋能 Cursor ,让 AI Coding 成了最热的论题。在代码才能方面的打破,运用的办法或许便是 RL。


第二个超出预期的是 DeepSeek,起步很晚,可是专心提高模型的推理、代码、数学才能,最近把 Coder 和 Chat 模型兼并,代码水平挨近 GPT-4o,在国内是断档榜首的存在。


这两家公司的共性便是:单点打破。


如果说大言语模型的特色是通用智能的提高, RL 的特色便是单点打破。


而推理、代码、数学、Agent 便是现在价值最高的生产力范畴,最适合做单点打破。


三、草莓模型,两周驾到


这部分信息昨日来自 The Information 的报导:


OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks, according to two testers involved with the model.

据两名测验者泄漏,OpenAI 方案在未来两周内发布“Strawberry”的纯文本版别。


Early impressions indicate it’s somewhat underwhelming, primarily using chain-of-thought prompting. Responses take 10-20 seconds, making it slower than expected.

开始形象标明,它有些不及预期,主要是运用链式思想提示。呼应时刻为 10 到 20 秒,比预期的慢。


While testers found its performance slightly better than GPT-4o, Strawberry struggles with short, simple queries and has issues with memory integration.

尽管测验人员发现它的才能略优于 GPT-4o,但 Strawberry 在处理简略 Query 时体现欠安,而且在回忆方面存在问题。


The model lacks image integration, making it exclusively text-based for now.

该模型现在不支持图画集成,因而只能处理文本。


It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times, diverging from the current pricing structure of ChatGPT.

估计 Strawberry 会设定速率约束,并或许为需求更快呼应时刻的用户推出更高价位的套餐,这与现在的 ChatGPT 定价结构有所不同。


四、ChatGPT Pro 上线,200美金/月


前几天有报导 OpenAI 考虑上一个 2000美金/月的订阅,几乎太张狂了。成果今日 OpenAI 总算发布了实践的订阅价格是:200美金/月……


不知道是不是因为有2000美元的价格作衬托,感觉200美元的话,还行?


这个200美金的订阅买完,用了一下,发现除了能够不定量运用 4o,并没有什么新的东西。


所以猜想仅有的或许便是行将发布的草莓的价格。


卡兹克对草莓的一句话总结:根据新范式Self-play RL所做的,在数学、代码才能上强到爆破、且具有自主为用户履行浏览器/体系操作等级的新模型。更智能、更慢、更贵。


为什么这么贵?简单说这便是更高智能的价值。


从功效视点来说,草莓模型的特色是:代码、数学、推理才能、Agent 才能超强,这几项才能都是高价值的,但说代码才能,如果能比现在的 Claude 3.5 再显着好一截,200美金一个月也是能承受的。


从本钱视点来说,草莓模型每次答复,会进行很多的内部“考虑”,会长达10~20秒,其算力耗费本钱应该在GPT4的10倍以上。


从原理上来说,草莓的办法 Self-play RL 自身需求巨大的推理本钱进行练习,而且因为非实时性,这代模型的价值或许是组成数据,而非直接运用,而高质量数据的价格十分贵重,200美金也就够博士生标个几条吧。


已然定价已出,就等 OpenAI 11月的 dev day 发布模型了,本年 AI 职业的重头戏,会是新的里程碑仍是平平如苹果发布会,让我们拭目而待!


本文来自微信大众号:橘子汽水铺,作者:orangesai

发表评论

快捷回复: 表情:
评论列表 (暂无评论,818人围观)

还没有评论,来说两句吧...

目录[+]