Scaling Law 遇到瓶颈,Self-Play RL可能是新的通往AGI的靠谱路径。 张小珺Jùn访谈前OpenAI 研究员,讨论OpenAI o1和self-play RL https://t.co/EjYwB3JuPX 1. Scaling Law 可能遇到瓶颈,有三个问题 ① 参数:现有模型参数规模难以突破,且收益递减。 ② 数据:获取高质量文本数据的难度越来越大。 ③ 算力:现有 GPU 集群规模难以大幅提升,且运维成本高昂。 例如:英伟达B100 GPU 尚未问世,短期内算力瓶颈。 马斯克 XAI 的十万卡集群策略或许能带来突破,但是超大规模集群运维和训练难度极高,挑战巨大。 2. 如何突破Scaling Law的瓶颈? 三条潜在路线:多模态、十万卡集群、强化学习。 多模态:引入视觉等多模态数据,但目前缺乏证据表明其能带来智能水平的提升。 十万卡集群:通过更大规模的算力集群来突破瓶颈,但技术难度和运维成本巨大。 强化学习(RL):被认为是最具潜力、最接近人类学习方式的方法,可能成为新的 Scaling Law。 3. 什么是强化学习? 让 AI 通过随机路径尝试新任务,并根据奖励反馈机制更新神经网络权重,从而学习如何完成任务。 LLM侧重于利用现有数据,而强化学习更强调 AI 的自主探索和决策能力,更接近人类的学习方式。 Self-Play RL、传统 RL 和 RLHF 的区别 自博弈强化学习 (self-play RL) 是强化学习的一种特殊形式,指的是 AI 与自身的不同版本进行对抗训练,从而不断提升自身的能力。 这种方法在游戏领域,如 AlphaGo 和 AlphaStar 中取得了巨大的成功,展现出了超越人类的智能水平。 RLHF 的主要目的是让人工智能模型的行为更符合人类的偏好,而不是追求超越人类的超级智能。 与 Self-Play RL 相比,RLHF 更侧重于人机对齐,而不是提升模型的逻辑推理能力。 Self-Play RL 与传统的 RL 的主要区别在于智能体的计算量大幅增加,例如 AlphaZero 与今天的大语言模型相比,参数量相差了三到四个数量级。 4. 点评AI赛道:代码、视频、机器人 代码生成:AI 编程工具的兴起,如 Cursor。大众消费级编程工具的巨大潜力。Coding 成为 RL 新范式下最匹配的应用方向。 视频生成:SORA 推动了视频生成技术的进步。DIT 路线潜力巨大。人人都是导演的时代即将到来。但视频生成领域的格局尚未稳定,存在巨大风险和机遇。 通用机器人:OpenAI 引爆了通用机器人赛道。目前仍处于早期阶段,技术突破是关键。商业化落地尚需时日,投资风险较大。 5. 点评硅谷主要玩家 OpenAI:商业化进程缓慢,产品策略有待改进。人才流动频繁,但核心团队稳定,影响有限。 Anthropic:Claude 3.5 表现亮眼,强化学习路线领先。创始团队技术实力雄厚,未来发展值得期待。 其他公司:Google、Tesla 在机器人领域具有优势,值得长期关注。Apple 作为硬件巨头,将从 AI 浪潮中持续受益。