机器之心PRO · 会员通讯 Week 12
--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---
1. 大模型江湖,算法与工程孰执生意牛耳?
前 OpenAI CTO 的新生意打算怎么做?「出走版 OpenAI」 后训练的生意经=少少 SFT+大量 RL?Thinking Machines Lab 重视哪些 RL 技巧?推理起量要做大吞吐?大吞吐除了堆 Batch Size 还有哪些要点?...
2. 2025 年,通用机器人要从实验室走向市场了吗?
为什么 2025 年,各家都在卷通用具身智能机器人的「大脑」?这些关键玩家谁能做成具身机器人的通用「基座」?通用具身智能模型技术路线还没有收敛?真机数据还是合成数据,具身机器人核心问题数据如何解决?具身机器人领域的关键玩家们近期都在做什么?...
...本期完整版通讯含 2 项专题解读 + 31 项本周 AI Robotics 赛道要事速递,其中技术方面 10 项,国内方面 9 项,国外方面 12 项。
本期通讯总计 22998 字,可免费试读至 11%
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 大模型江湖,算法与工程孰执生意牛耳?
引言:OpenAI 前 CTO Mira Murati 的新公司的目标之一是「帮助人们调整人工智能系统,以满足他们的特定需求」,但至今尚未透露任何商业计划与项目信息。近期,该团队研究科学家Luke Metz首次在公开场合分享了他们对当前大模型技术的趋势与工程化经验,或在某种程度映射了Thinking Machines Lab的技术理念。
还是大模型,前 OpenAI CTO 的新生意打算怎么做?[1-1]
1、近期,Thingking Machines Lab 的研究科学家兼工程师 Luke Metz 于拉美人工智能会议 KHIPU 2025 发表主题演讲。
① 2025 年 2 月 19 日,前 OpenAI CTO Mira Murati 宣布成立人工智能研究和产品公司「Thinking Machines Lab」。其豪华的团队阵容引起业内大量关注,但目前尚未公开任何实际项目。
2、该场演讲以「Large scale RL on language models」为题,探讨了预训练与后训练技术的工艺和见解,并「非常模糊」地分享了 Thingking Machines Lab 近期的进展。
① Luke Metz 的演讲主要围绕模型后训练的相关工艺展开。他以海绵为比喻,预训练的目的是在海绵中尽可能多的信息,而后训练则是为了让海绵以特定的人设/目的/需求把对应的信息呈现出来,因此工艺也更为复杂。
3、Luke Metz 强调了模型后训练的核心策略是整合从演示中学习(SFT)和强化学习(RL)两种技术。两者以「少少 SFT+大量 RL」的配比相结合往往能带来更好的效果。
① SFT 本质上是让模型从演示中学习,结束少量经过筛选和标注的演示数据为模型呈现任务执行的基础行为模式,让模型得到良好的初始策略(Do a bit of SFT to get a good initial policy)。
② 强化学习则是后训练的核心构成,奖励函数则是决定模型学习方向的关键因素。在 SFT 搭建的基础之上,通过精心设计的奖励函数,为模型行为提供精确导向,通过持续试错让模型逐步摸索出解决复杂任务的最优策略,(RL a bunch to maximize performance)
③ 结合 SFT 与 RL,以「Do a bit of SFT to get a good initial policy,RL a bunch to maximize performance」的模式设计往往会得到让人经验的结果(works surprisingly well)。
4、Luke Metz 还在演讲中讨论了产品、计算资源和软件系统于后训练之间的关系,并分享了其团队对于适配后训练推理目标(Inference Demand)的设计理念。
① 软件系统在后训练阶段的复杂性显著增加。与预训练阶段侧重于大规模数据并行处理和模型参数初始化计算不同,后训练阶段因涉及强化学习、多种数据类型处理以及复杂评估流程,要求软件系统具备更灵活、可扩展的架构。
② 相较于预训练,后训练需要将推理作为训练过程的一部分,因而和以往的推理目标(Inference Demand)不同。
③ Metz 强调,提供推理能力的产品通常关注低延迟表现(low-Latency),因为用户不希望等待过长时间。但对于 RL 和后训练,其目标是从硬件中获得最佳性能,因此需要尽可能提高吞吐量(High throughput)。推理目标的差异将会改变很多设计决策,也会导致系统架构的差异。
④ 在后训练的推理目标下,Metz 的设计经验是「Batch Size 越大越好」(Get big batch sizes as much as you can)。
5、Luke Metz 在有关组织复杂性的话题中分享了其团队在 OpenAI 开始就面临的问题、尝试解决方案和当前的阶段性进展。(但没有指出是否是 Thingking Machines Lab)
① 他以自己在 OpenAI 的经历为例,其团队只有大约五个人,但随着模型功能的不断增加,团队规模迅速扩大到了 100 多人。这种快速的团队扩张带来了新的问题,因为现在有大量人员需要在同一个模型上进行协作。
② 团队尝试通过建立一种机制来解决这个问题,这种机制允许各个小组独立改进模型的不同部分,然后将这些改进整合到一个主模型中。他们将这个主模型称为「主线模型」。
③ 这种方法的核心在于,各个小组可以在较小的模型上、使用较少的数据或特定的评估集上进行实验,如果某个小组的改进通过了这些测试,那么这些改进就会被整合到主线模型中。然而,这种方法也有其局限性,因为当模型规模扩大时,一些在小规模实验中看似有效的方法可能会突然失效,导致灾难性的后果。
④ Metz 还提到,当出现问题时,团队需要有一种机制来快速回滚到之前的状态。但是,这种回滚机制并不总是有效,因为有时候问题的根源可能并不明确。
6、此外,Luke Metz 在演讲中还分享了奖励优化、监督微调(SFT)与强化学习(RL)的结合使用、不同的 RL 方法、在链式思维和工具使用等领域的应用、评估方法、产品集成、计算需求以及组织挑战等多个方面。
表:Thinking Machines Lab 创始团队成员名单[1-2]
「出走版 OpenAI」 后训练的生意经:少少 SFT+大量 RL?[1-1]
0 条