OpenAI o1，AI 的 L2 时刻到来

还记得两个月前，OpenAI 定义了 AI 的 5 个 Level 吗？今天 AI 行业就正式进入了 Level 2，Level 2 的含义是推理者，模型具备了和人类同水平的问题解决能力。

会慢思考的模型

OpenAI 发布新模型系列 OpenAI o1，新模型在大多数情况下并不如 GPT-4o 实用，不支持联网搜索、不支持文件、不支持画图，也不支持 system prompt，不支持 tool，不支持 json mode和结构化输出。

但是，新模型会进行系统2思考，通过花费更多时间思考，能够推理复杂任务，并解决科学、编程、数学领域中的难题。

这个系列的第一个模型被成为 OpenAI o1，这个名字有两个要点：

第一，模型名字直接用上了公司的名称，重要性可见一斑。

第二，代号1，代表是个起点，这个系列的第一版，还不完美，问题很多。但是，对于复杂的推理任务而言，这是一个重要的进步，标志着 AI 能力的新高度。

技术报告地址：https://openai.com/index/learning-to-reason-with-llms/

模型能力和限制

官方说明：模型实用了强化学习以用于复杂推理。在回复用户前在模型内部会有很长的 CoT 过程。

OpenAI o1 在数学、Code、科学问题方面都有巨大的飞跃性进步，指标如图：

反越狱能力，在OpenAI满分100的越狱测试中，GPT-4o的得分是22，o1-preview的得分是84，模型通过内置反越狱规则，将反越狱能力提升了4倍。

模型计费，不按照输出 token 计费，而是按照过程 token 计费，实际 token 成本可能是 4o 价格的上百倍（问题越复杂倍率越高）。不建议在简单任务上使用，纯粹浪费资源。

使用限制，对于 plus 会员，o1-preview 限制在了 30 条/周，o1-mini 限制在了 50 条/周。对于免费会员，目前还未开放，但是会开放试用。对于 200美金的 Pro 会员，很神奇，目前全部封号，但 plus 会员 30条/周的限制明显是不够的，所以200美金档也许会重新开放。

Agent 能力，目前还是不太行，这也确认了现在的阶段是 Level2，而不是 Level3。

技术报告要点

o1 技术报告写的可以用四个字来形容「闪烁其词」多说一个字都担心被竞争对手抄走。

但我还是在里面发现了一些有趣的点：

通过强化学习，o1 学会磨练其思维链并完善其使用的策略。它学会认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。如果当前方法不起作用，它就会尝试另一种方法。这个过程极大地提高了模型的推理能力。

这里强调了强化学习强化了什么：

识别错误和纠正错误

把复杂任务拆解为简单任务

失败后更换思路并重试

但是只纠正错误是不够的，模型还需要更强的思考发散能力，这个能力受制于人类的驯化对齐，于是 OpenAI 干脆解放了模型的自由思考。

我们相信，隐藏的思想链为监控模型提供了独特的机会。被隐藏起来的思想链（假设它是忠实且清晰的）使我们能够“读懂模型的思想”并理解其思维过程。例如，将来我们可能希望监控思想链以寻找操纵用户的迹象。然而，要让模型发挥作用，模型必须能够自由地以不变的形式表达其思想，因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不想让用户直接看到不统一的思想链。

要提高模型智力，就需要模型能够有更强的发散能力，必须要让模型自由思考。

自由思考就不能把用户偏好和政策合规加上去。

也就是说，在思想的部分，这个模型不存在思想钢印。

而在总结思维过程部分，加上了思想钢印。

所以严格来说， o1 并不是一个模型，它应该至少包含三个模型：

发散思考模型，没有思想钢印，完全自由的思考，并通过强化学习提升模型输出高价值想法的能力

思维改写模型，通过总结和改写来隐藏思想过程，并通过思想钢印来过滤不合适输出的敏感内容，同时严格避免思路被泄露出来

输出模型，包含所有的安全对齐和人类对格式的偏好，输出最终结果，这也就是 OpenAI o1 API 会输出的内容。

这个隐藏思考过程的骚操作，可谓一石三鸟。

第一、保证了在监管环境下，模型也能够发展出自己的智力。

隐藏过程相当于仅自己可见，如果产生了 SSI，如果OpenAI不说，别人也不知道，这也许就是安全团队集体出走OpenAI的根本原因。但是在某些超强监管环境下，政府会允许模型进行违法思考吗？政府会不会要求模型公司向官方曝光所有的思考过程？ 第二、通过隐藏思考过程，避免了竞争对手发现此模型的有效策略。

这个模型的强化学习部分是核心，强化学习筛选出了高价值的思维方式，这个思维方式价值连城。高水平的强化学习目前依然是最高端的技术范畴，全世界能用好此技术的公司不超过五家。

第三、通过隐藏思考过程，彻底杜绝了蒸馏模型现象。大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏，只让自己通过 Self Play 左脚踩右脚，构建自己的数据壁垒。

引用文章部分就更有趣了： 1. Claude 3.5 的官方介绍，感谢友商启发

https://anthropic.com/news/claude-3-5-sonnet…

2. Gemini Pro 2 的官方介绍，再次感谢友商启发

https://deepmind.google/technologies/gemini/pro2…

3. Let's verify step by step 通过思维的过程而非结果进行强化学习训练

https://arxiv.org/abs/2305.200503

4. 关于 Elo 评级及其重要性。文章主要讲述了竞争编程中的评级系统及重要性。文章首先介绍了评级的历史背景，强调了 Elo 系统在棋类比赛中的应用，以及 Codeforces 等现代编程竞赛平台如何发展出自己的评级系统。可能是o1强化学习中所主要参考的机制。

https://codeforces.com/blog/entry/68288

其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论。这篇论文很神奇，它是 OpenAI 的研究员自己写的，而且它使用了未经人类驯化（ RLHF微调）的 GPT4 基座做实验，得出了一些神奇的结论：

1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练，而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。

2.在解决具有挑战性的数学问题时，过程监督显著优于结果监督（见图）

3.在某些情况下，人工智能系统更安全的方法可能会导致性能下降，这种成本被称为对齐税。我们的结果表明，过程监督实际上会产生负对齐税，也就是说安全上越对齐，模型能力越强。（Ilya警告！）这个也很好理解，大家都知道撒谎会激活大脑里更多区域的参与，模型通过想一套做一套，甚至可以学会撒谎。

4.过程监督的训练集使用「主动学习」方法构建。主动学习只显示最有价值的模型补全结果，通过筛选高价值结果，降低了人工标注成本。主动学习可以为过程监督带来2.6倍的效率提升。

三篇相关论文，一篇文章，一个播客，一个视频：

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

https://arxiv.org/pdf/2402.05808

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

https://arxiv.org/pdf/2407.21787

REFT: Reasoning with Reinforced Fine-Tuning

https://arxiv.org/pdf/2401.08967

LLM的范式转移：RL带来新的 Scaling Law

https://mp.weixin.qq.com/s/JPfgF6UtgIYwWXwNQHOoqQ

AGI范式大转移：和广密预言草莓模型和self-play RL|全球大模型季报4

https://www.xiaoyuzhoufm.com/episode/66d866f0f39a2201c069dccb

Andrej Karpathy：Intro to Large Language Models

https://www.youtube.com/watch?v=zjkBMFhNj_g

新模型的意义：

代码能力显著提升，代码是最高价值的生产力，把代码做到最好，就是局部 AGI

推理能力提升，Agent 相关项目的下限和上限被整体拉高

科学研究能力提升，AI for Science 项目的下限和上限被整体拉高

形成数据飞轮效应，正确的答案及其思考过程可以成为很好的训练数据。从而不断改进推理核心，类似AlphaGo的价值网络随着MCTS生成更多精炼数据而改进。 from Jimfan

Scaling 范式转移到了强化学习。为什么需要强化学习？因为在原来的范式里，训练数据已经不够了。需要通过 Self-Play 生成更多的问题和解答，再把好的学了，不好的扔掉，用这样的方法去创造更多的数据。 from Kimi

从以上可以看出，模型主要提升的是生产端的能力，对于消费端来说意义不算太大，能想到两点

对于汉语新解这样的 prompt app，可以输出更好更复杂的page/card

对于猫箱这样的AI小游戏 app，可以增加游戏规则的推理能力，提高游戏的复杂程度，但是这个巨大的延迟恐怕暂时无法应用

o1 mini

o1-mini，编程特供模型，比 o1-preview 便宜 80%，注意它是成熟模型，不是 preview。

o1 mini 很有趣，预训练的配方和o1不同，o1 等大型语言模型是在大量文本数据集上进行预训练的。虽然这些高容量模型具有广泛的世界知识，但对于现实世界的应用程序来说，它们可能既昂贵又缓慢。

相比之下，o1-mini 是一个较小的模型，针对预训练期间的 STEM 推理进行了优化。

o1 mini 在非 STEM 领域的能力和 4o mini 相同，我们将在未来的版本中改进这些限制，并尝试将模型扩展到 STEM 之外的其他模式和专业。

mini 介绍地址：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

o1-mini 的性能，根据官方的介绍，在代码能力方面低于 4o。所以商业价值现在还不高，突出一个未来可期。

以上

好像对普通消费者意义不大。

但也不用慌，等生产者先上。

或者，自己成为一个生产者。