最近收听了好友吴翼的播客,收获了很多强化学习的知识,也收获了很多人生的道理。
吴翼是研究强化学习领域的专家。他曾在 OpenAI 工作,是一线的 AI 创业者,现在清华叉院当助理教授(非常年轻)。
这期播客干货满满,是近期最有价值的播客之一。
我从中摘要了一些精华,分享给大家。
- RL 要解决的问题没有标准答案,每一步的具体决策也不受约束。
- 人是“Diversity-driven”(多样性驱动)的,我们天生追求不同的体验,这才构成了多姿多彩的人生。
- 要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。
- 创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。
机器学习和强化学习
吴翼首先讲述了机器学习(ML)和强化学习(RL)的区别。
传统的机器学习,好比训练一个学生去记住大量标准答案,比如看图片认猫狗、人脸和指纹识别。
这类问题通常有两个特点:
一步到位,答案明确。
但 RL 和 ML 有很大的不同,RL 就像是在玩一场游戏:
第一,游戏不是一步到位,而是在过程中有非常多的动作和决策。
比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。
第二,赢得一场游戏的方式可能有成千上万种,并没有唯一的标准答案。
RL 要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。
强化学习就像游戏,也像极了真实的人生。
我们面临无数选择,都不是简单的是非对错,也没有人给我们“通关攻略”。
我们只能不断尝试,接收反馈,调整策略,继续尝试。
人生就是一场强化学习
人生就像一场强化学习,但又和强化学习有很大的不同。
吴翼指出了其中的关键差异:
标准的 RL 需要明确的‘奖励函数’,比如游戏里‘赢了’就是奖励。
但人生的奖励函数是什么?财富?成就?内心的宁静?
这或许是人生这场“游戏”最核心的挑战。
“我们不仅在玩游戏,更重要的,是要在过程中探索和定义,什么才是我们真正想要的‘奖励’。很多人可能努力了很久,最后发现找错了目标。”
他还观察到:传统的 RL 模型找到有效策略后会不断重复,因为它只在乎结果。但人不一样。
“人虽然也想赢,但可能会想换个赢法。比如踢球,总用单刀会腻,就想试试头球。”
人是“Diversity-driven”(多样性驱动)的,我们天生追求不同的体验,这才构成了多姿多彩的人生。
很多他的学生在做职业选择时,倾向于选择“风险最低”路径。
但他觉得:
“人还是要追求‘熵值最大化’的生活方式”
什么是熵值最大化?
DeepSeek:指在有限的约束条件下,尽可能保持人生的多样性和可能性,避免过早固化或陷入单一路径。
找到自己人生的“奖励函数”
既然找到奖励函数或许是人生这场“游戏”最核心的挑战,那如何才能找到它?
吴翼认为,找到奖励函数的关键在于主动探索和试错。
他分享了自己的经历:
“如果当年我在伯克利读书时,没有主动去敲隔壁另一个导师的门,可能最终不会拐上强化学习这条路。”
他也提到,在他的研究中,比如做一个能和人玩《Overcooked》协作游戏的 AI,AI 就必须通过不断尝试和互动,来“猜测”人类玩家的意图,也就是它需要优化的“奖励函数”。
“要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。”
尤其在年轻的时候,多尝试、多跳出舒适区看看,即使“试错”也是有价值的积累。
创业公司与终局思维
既然 RL 如此重要,大模型公司也都会做,那创业公司是否有必要做 RL呢?
吴翼说,创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。
现在 AI 发展得这么快,如果你真的去考虑终局,很可能会陷入一种无意义感,觉得世界上没有你的机会。
Manus 就是一个特别好的例子,在市场上还没有太多类似产品的时候,他们以最快的速度做出了一个可用的产品,抓住了机会。
结语
强化学习不仅仅是代码和算法,它更像是一种世界观,一种理解复杂系统、应对不确定性的方法论。
吴翼的分享,从技术前沿延展到人生哲学,让“强化学习”、“奖励函数”、“熵值最大化”这些概念变得鲜活起来。
人生这场独一无二的“强化学习”,没有预设的“最优策略”,也没有唯一的“奖励函数”。
最重要的是保持开放,主动去“和世界交手”,在试错中探索属于自己的价值和意义。
不要陷入终局思维的陷阱,而去拥抱过程的多样性,追求熵值的最大化的人生。
以上就是今天的全部分享。
强烈推荐大家去听原版播客,相信你也会有自己的收获。
小宇宙一堂「强化学习」大师课|对谈清华叉院助理教授吴翼
一堂「强化学习」大师课|对谈清华叉院助理教授吴翼
听《42章经》上小宇宙。 你好,我是曲凯,42章经的创始人。 小的时候我不太舍得花钱,记得当年一毛钱一袋的牛肉干真的很好吃,但如果偶尔遇到一个很有趣的人,我会欣然花几十、上百块请他吃个饭,还觉得自己赚到了。 后来长大了一些,开始刷人人网、豆瓣、知乎、再到现在的即刻…… 你有没有偶尔在这些平台刷到过一个很有缘的人,然后在一个夏日的午后,把他的发言、转载和收藏全都看了一遍,并觉得心有戚戚焉。 再后来工作和创业以后,每天就是聊各种各样的投资人、创业者。 如果能聊到一个优秀的人,真的会有一种如沐春风的感觉,并真心觉得很幸福。 而同行们见面经常会聊到的问题也是:最近有没有遇到什么有意思的人? 所以,这个播客就是要努力把这些人带到你的身边。 我们只专注和有趣、有独到认知、又愿意坦诚分享的聪明人聊天。 希望你听完每一期都能回到小时候,回到那个因为认识了有趣的人、收获了新知,而感到单纯美好幸福的时刻。 如果听完以后,你还能暗自感慨一句, “我也好想认识这个人啊。” 或者, “哇靠,有被启发到。” 那这个播客也就值了。