还记得两个月前,OpenAI 定义了 AI 的 5 个 Level 吗?今天 AI 行业就正式进入了 Level 2,Level 2 的含义是推理者,模型具备了和人类同水平的问题解决能力。

会慢思考的模型
OpenAI 发布新模型系列 OpenAI o1,新模型在大多数情况下并不如 GPT-4o 实用,不支持联网搜索、不支持文件、不支持画图,也不支持 system prompt,不支持 tool,不支持 json mode和结构化输出。
但是,新模型会进行系统2思考,通过花费更多时间思考,能够推理复杂任务,并解决科学、编程、数学领域中的难题。
这个系列的第一个模型被成为 OpenAI o1,这个名字有两个要点:
第一,模型名字直接用上了公司的名称,重要性可见一斑。
第二,代号1,代表是个起点,这个系列的第一版,还不完美,问题很多。但是,对于复杂的推理任务而言,这是一个重要的进步,标志着 AI 能力的新高度。
模型能力和限制
官方说明:模型实用了强化学习以用于复杂推理。在回复用户前在模型内部会有很长的 CoT 过程。
OpenAI o1 在数学、Code、科学问题方面都有巨大的飞跃性进步,指标如图:

反越狱能力,在OpenAI满分100的越狱测试中,GPT-4o的得分是22,o1-preview的得分是84,模型通过内置反越狱规则,将反越狱能力提升了4倍。
模型计费,不按照输出 token 计费,而是按照过程 token 计费,实际 token 成本可能是 4o 价格的上百倍(问题越复杂倍率越高)。不建议在简单任务上使用,纯粹浪费资源。
使用限制,对于 plus 会员,o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周。对于免费会员,目前还未开放,但是会开放试用。对于 200美金的 Pro 会员,很神奇,目前全部封号,但 plus 会员 30条/周 的限制明显是不够的,所以200美金档也许会重新开放。
Agent 能力,目前还是不太行,这也确认了现在的阶段是 Level2,而不是 Level3。

技术报告要点
o1 技术报告写的可以用四个字来形容「闪烁其词」
多说一个字都担心被竞争对手抄走。
但我还是在里面发现了一些有趣的点:
通过强化学习,o1 学会磨练其思维链并完善其使用的策略。它学会认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。如果当前方法不起作用,它就会尝试另一种方法。这个过程极大地提高了模型的推理能力。
这里强调了强化学习强化了什么:
- 识别错误和纠正错误
- 把复杂任务拆解为简单任务
- 失败后更换思路并重试
但是只纠正错误是不够的,模型还需要更强的思考发散能力,这个能力受制于人类的驯化对齐,于是 OpenAI 干脆解放了模型的自由思考。
我们相信,隐藏的思想链为监控模型提供了独特的机会。被隐藏起来的思想链(假设它是忠实且清晰的)使我们能够“读懂模型的思想”并理解其思维过程。例如,将来我们可能希望监控思想链以寻找操纵用户的迹象。 然而,要让模型发挥作用,模型必须能够自由地以不变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不想让用户直接看到不统一的思想链。
要提高模型智力,就需要模型能够有更强的发散能力,必须要让模型自由思考。
自由思考就不能把用户偏好和政策合规加上去。
也就是说,在思想的部分,这个模型不存在思想钢印。
而在总结思维过程部分,加上了思想钢印。
所以严格来说, o1 并不是一个模型,它应该至少包含三个模型:
- 发散思考模型,没有思想钢印,完全自由的思考,并通过强化学习提升模型输出高价值想法的能力
- 思维改写模型,通过总结和改写来隐藏思想过程,并通过思想钢印来过滤不合适输出的敏感内容,同时严格避免思路被泄露出来
- 输出模型,包含所有的安全对齐和人类对格式的偏好,输出最终结果,这也就是 OpenAI o1 API 会输出的内容。
这个隐藏思考过程的骚操作,可谓一石三鸟。
第一、保证了在监管环境下,模型也能够发展出自己的智力。
隐藏过程相当于仅自己可见,如果产生了 SSI,如果OpenAI不说,别人也不知道,这也许就是安全团队集体出走OpenAI的根本原因。
但是在某些超强监管环境下,政府会允许模型进行违法思考吗?
政府会不会要求模型公司向官方曝光所有的思考过程?
第二、通过隐藏思考过程,避免了竞争对手发现此模型的有效策略。
这个模型的强化学习部分是核心,强化学习筛选出了高价值的思维方式,这个思维方式价值连城。高水平的强化学习目前依然是最高端的技术范畴,全世界能用好此技术的公司不超过五家。
第三、通过隐藏思考过程,彻底杜绝了蒸馏模型现象。大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏,只让自己通过 Self Play 左脚踩右脚,构建自己的数据壁垒。
引用文章部分就更有趣了:
1. Claude 3.5 的官方介绍,感谢友商启发
2. Gemini Pro 2 的官方介绍,再次感谢友商启发
3. Let's verify step by step 通过思维的过程而非结果进行强化学习训练
4. 关于 Elo 评级及其重要性。文章主要讲述了竞争编程中的评级系统及重要性。文章首先介绍了评级的历史背景,强调了 Elo 系统在棋类比赛中的应用,以及 Codeforces 等现代编程竞赛平台如何发展出自己的评级系统。可能是o1强化学习中所主要参考的机制。
其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论。
这篇论文很神奇,它是 OpenAI 的研究员自己写的,而且它使用了未经人类驯化( RLHF微调) 的 GPT4 基座做实验,得出了一些神奇的结论:
1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练,而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。
2.在解决具有挑战性的数学问题时,过程监督显著优于结果监督(见图)

3.在某些情况下,人工智能系统更安全的方法可能会导致性能下降,这种成本被称为对齐税。我们的结果表明,过程监督实际上会产生负对齐税,也就是说安全上越对齐,模型能力越强。(Ilya警告!)这个也很好理解,大家都知道撒谎会激活大脑里更多区域的参与,模型通过想一套做一套,甚至可以学会撒谎。
4.过程监督的训练集使用「主动学习」方法构建。主动学习只显示最有价值的模型补全结果,通过筛选高价值结果,降低了人工标注成本。主动学习可以为过程监督带来2.6倍的效率提升。
三篇相关论文,一篇文章,一个播客,一个视频:
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
REFT: Reasoning with Reinforced Fine-Tuning
LLM的范式转移:RL带来新的 Scaling Law
AGI范式大转移:和广密预言草莓模型和self-play RL|全球大模型季报4
Andrej Karpathy:Intro to Large Language Models
新模型的意义:
- 代码能力显著提升,代码是最高价值的生产力,把代码做到最好,就是局部 AGI
- 推理能力提升,Agent 相关项目的下限和上限被整体拉高
- 科学研究能力提升,AI for Science 项目的下限和上限被整体拉高
- 形成数据飞轮效应,正确的答案及其思考过程可以成为很好的训练数据。从而不断改进推理核心,类似AlphaGo的价值网络随着MCTS生成更多精炼数据而改进。 from Jimfan
- Scaling 范式转移到了强化学习。为什么需要强化学习?因为在原来的范式里,训练数据已经不够了。需要通过 Self-Play 生成更多的问题和解答,再把好的学了,不好的扔掉,用这样的方法去创造更多的数据。 from Kimi
- 从以上可以看出,模型主要提升的是生产端的能力,对于消费端来说意义不算太大,能想到两点
- 对于汉语新解这样的 prompt app,可以输出更好更复杂的page/card
- 对于猫箱这样的AI小游戏 app,可以增加游戏规则的推理能力,提高游戏的复杂程度,但是这个巨大的延迟恐怕暂时无法应用
o1 mini
o1-mini,编程特供模型,比 o1-preview 便宜 80%,注意它是成熟模型,不是 preview。
o1 mini 很有趣,预训练的配方和o1不同,o1 等大型语言模型是在大量文本数据集上进行预训练的。虽然这些高容量模型具有广泛的世界知识,但对于现实世界的应用程序来说,它们可能既昂贵又缓慢。
相比之下,o1-mini 是一个较小的模型,针对预训练期间的 STEM 推理进行了优化。
o1 mini 在非 STEM 领域的能力和 4o mini 相同,我们将在未来的版本中改进这些限制,并尝试将模型扩展到 STEM 之外的其他模式和专业。
o1-mini 的性能,根据官方的介绍,在代码能力方面低于 4o。所以商业价值现在还不高,突出一个未来可期。

以上
好像对普通消费者意义不大。
但也不用慌,等生产者先上。
或者,自己成为一个生产者。