大模型江湖，算法与工程孰执生意牛耳？

更新时间：2025-03-24 21:31:20 发布时间：1天前评论：0

收藏

分享

内容摘要机器之心PRO · 会员通讯 Week 12--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---1. 大模型江湖，算法与工程孰执生意牛耳？前 OpenAI CTO 的新生意打算怎么做？「出走版 OpenAI」后训

机器之心PRO · 会员通讯 Week 12

--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---

1. 大模型江湖，算法与工程孰执生意牛耳？

前 OpenAI CTO 的新生意打算怎么做？「出走版 OpenAI」后训练的生意经=少少 SFT+大量 RL？Thinking Machines Lab 重视哪些 RL 技巧？推理起量要做大吞吐？大吞吐除了堆 Batch Size 还有哪些要点？...

2. 2025 年，通用机器人要从实验室走向市场了吗？

为什么 2025 年，各家都在卷通用具身智能机器人的「大脑」？这些关键玩家谁能做成具身机器人的通用「基座」？通用具身智能模型技术路线还没有收敛？真机数据还是合成数据，具身机器人核心问题数据如何解决？具身机器人领域的关键玩家们近期都在做什么？...

...本期完整版通讯含 2 项专题解读 + 31 项本周 AI Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 12 项。

本期通讯总计 22998 字，可免费试读至 11%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 大模型江湖，算法与工程孰执生意牛耳？

引言：OpenAI 前 CTO Mira Murati 的新公司的目标之一是「帮助人们调整人工智能系统，以满足他们的特定需求」，但至今尚未透露任何商业计划与项目信息。近期，该团队研究科学家Luke Metz首次在公开场合分享了他们对当前大模型技术的趋势与工程化经验，或在某种程度映射了Thinking Machines Lab的技术理念。

还是大模型，前 OpenAI CTO 的新生意打算怎么做？[1-1]

1、近期，Thingking Machines Lab 的研究科学家兼工程师 Luke Metz 于拉美人工智能会议 KHIPU 2025 发表主题演讲。

① 2025 年 2 月 19 日，前 OpenAI CTO Mira Murati 宣布成立人工智能研究和产品公司「Thinking Machines Lab」。其豪华的团队阵容引起业内大量关注，但目前尚未公开任何实际项目。

2、该场演讲以「Large scale RL on language models」为题，探讨了预训练与后训练技术的工艺和见解，并「非常模糊」地分享了 Thingking Machines Lab 近期的进展。

① Luke Metz 的演讲主要围绕模型后训练的相关工艺展开。他以海绵为比喻，预训练的目的是在海绵中尽可能多的信息，而后训练则是为了让海绵以特定的人设/目的/需求把对应的信息呈现出来，因此工艺也更为复杂。

3、Luke Metz 强调了模型后训练的核心策略是整合从演示中学习（SFT）和强化学习（RL）两种技术。两者以「少少 SFT+大量 RL」的配比相结合往往能带来更好的效果。

① SFT 本质上是让模型从演示中学习，结束少量经过筛选和标注的演示数据为模型呈现任务执行的基础行为模式，让模型得到良好的初始策略（Do a bit of SFT to get a good initial policy）。

② 强化学习则是后训练的核心构成，奖励函数则是决定模型学习方向的关键因素。在 SFT 搭建的基础之上，通过精心设计的奖励函数，为模型行为提供精确导向，通过持续试错让模型逐步摸索出解决复杂任务的最优策略，（RL a bunch to maximize performance）

③ 结合 SFT 与 RL，以「Do a bit of SFT to get a good initial policy，RL a bunch to maximize performance」的模式设计往往会得到让人经验的结果（works surprisingly well）。

4、Luke Metz 还在演讲中讨论了产品、计算资源和软件系统于后训练之间的关系，并分享了其团队对于适配后训练推理目标（Inference Demand）的设计理念。

① 软件系统在后训练阶段的复杂性显著增加。与预训练阶段侧重于大规模数据并行处理和模型参数初始化计算不同，后训练阶段因涉及强化学习、多种数据类型处理以及复杂评估流程，要求软件系统具备更灵活、可扩展的架构。

② 相较于预训练，后训练需要将推理作为训练过程的一部分，因而和以往的推理目标（Inference Demand）不同。

③ Metz 强调，提供推理能力的产品通常关注低延迟表现（low-Latency），因为用户不希望等待过长时间。但对于 RL 和后训练，其目标是从硬件中获得最佳性能，因此需要尽可能提高吞吐量（High throughput）。推理目标的差异将会改变很多设计决策，也会导致系统架构的差异。

④ 在后训练的推理目标下，Metz 的设计经验是「Batch Size 越大越好」（Get big batch sizes as much as you can）。

5、Luke Metz 在有关组织复杂性的话题中分享了其团队在 OpenAI 开始就面临的问题、尝试解决方案和当前的阶段性进展。（但没有指出是否是 Thingking Machines Lab）

① 他以自己在 OpenAI 的经历为例，其团队只有大约五个人，但随着模型功能的不断增加，团队规模迅速扩大到了 100 多人。这种快速的团队扩张带来了新的问题，因为现在有大量人员需要在同一个模型上进行协作。

② 团队尝试通过建立一种机制来解决这个问题，这种机制允许各个小组独立改进模型的不同部分，然后将这些改进整合到一个主模型中。他们将这个主模型称为「主线模型」。

③ 这种方法的核心在于，各个小组可以在较小的模型上、使用较少的数据或特定的评估集上进行实验，如果某个小组的改进通过了这些测试，那么这些改进就会被整合到主线模型中。然而，这种方法也有其局限性，因为当模型规模扩大时，一些在小规模实验中看似有效的方法可能会突然失效，导致灾难性的后果。

④ Metz 还提到，当出现问题时，团队需要有一种机制来快速回滚到之前的状态。但是，这种回滚机制并不总是有效，因为有时候问题的根源可能并不明确。

6、此外，Luke Metz 在演讲中还分享了奖励优化、监督微调（SFT）与强化学习（RL）的结合使用、不同的 RL 方法、在链式思维和工具使用等领域的应用、评估方法、产品集成、计算需求以及组织挑战等多个方面。

表：Thinking Machines Lab 创始团队成员名单[1-2]

「出走版 OpenAI」后训练的生意经：少少 SFT+大量 RL？[1-1]

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 大模型江湖，算法与工程孰执生意牛耳？

本文链接: http://dt8.cngdfl.cn/news/show-404843.html (转载时请保留)

0 条

Temu亏损缩窄营销投放放缓用户购买数据仍保持健康态势

科技 hanxilong66 ⋅ 6阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
保龄球游戏哪些人气高十大必玩保龄球游戏排行

科技 zxqing2008 ⋅ 3阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
V观财报｜5连板雪龙集团：外部流通盘相对较小，存炒作风险

科技 kunyuanguolv ⋅ 20阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
在泰豪里躲暴跌

科技 wyx933 ⋅ 5阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
微星推泰坦18 Pro AI 2025游戏本国补价28999元起

科技 yalijie0769 ⋅ 18阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
不可思议！美国科学家计划用地球自转发电

科技 risenhg ⋅ 16阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
黑爵 AK820 MAX Ultra 三模磁轴键盘发布：双 8K 回报率、8000mAh 电池，229 元起

科技 guhongchang ⋅ 18阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
知乎直答大升级：降低AI幻觉回答更可信赖

科技 gztyhg2009 ⋅ 19阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
骑车游戏哪个好最热骑车游戏排行榜

科技 zzzyhgyl ⋅ 16阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24
RPG 制作大师游戏推荐哪个热门RPG 制作大师游戏排行榜

科技 dongwyq01 ⋅ 13阅读量 ⋅ 0评论 ⋅ 10分钟前

2025-03-24

耕升RTX 5070踏雪OC显卡评测：性能优秀散热一流还是颜值巅峰

行业 ⋅ 15阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
迈入30g大关！米家智能音频眼镜2图赏



行业 ⋅ 3阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
2025年有厂商卷超广角了！vivo X200 Ultra配备5000万超大底超广角

行业 ⋅ 13阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
不可思议！美国科学家计划用地球自转发电

行业 ⋅ 16阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
女子滑翔不慎挂在了高压线停电救人意外造成养殖鱼死亡

行业 ⋅ 17阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
全系标配天神之眼C！比亚迪海狮05 EV定档3月25日上市：预计售价10万级



行业 ⋅ 4阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
突发！四川泸州4.9级地震绵阳、宜宾、乐山等多地震感明显

行业 ⋅ 8阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
小米SU7 Ultra市区时速150km撞飞电动车：伤者还在ICU 事故责任还未认定

行业 ⋅ 9阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
官方：乌鲁木齐地窝堡机场正式更名“天山机场”

行业 ⋅ 6阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24
比亚迪交出史上最强财报！全年销量超400万台净利润破400亿元

行业 ⋅ 1阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-03-24

洋河推出第七代海之蓝，大单品涉多重优化能否力挽营收下滑？

经济资讯站长 ⋅ 10阅读量 ⋅ 0评论 ⋅ 1小时前

2025-03-24
新华财经丨“试点、扩容、降费” 如何看待交易所债市“三连招”？

经济资讯站长 ⋅ 8阅读量 ⋅ 0评论 ⋅ 1小时前

2025-03-24
利亚德跌5.48% 4个多月无券商研报

经济资讯站长 ⋅ 1阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
长光华芯跌9.45% 2022年上市超募11.9亿元

经济资讯站长 ⋅ 20阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
破发股华厦眼科跌3.57% 2022年上市超募19.9亿元

经济资讯站长 ⋅ 14阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
普莱得跌4.7% 上市即巅峰募6.7亿元光大证券保荐

经济资讯站长 ⋅ 17阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
江南新材上市第三个交易日跌11.61%创新低

经济资讯站长 ⋅ 16阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
君逸数码跌4.33% 2023年上市超募5.6亿华林证券保荐

经济资讯站长 ⋅ 16阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
昆仑万维六连阴年内仅华泰证券1份研报

经济资讯站长 ⋅ 18阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24
楚环科技跌8.06% 2022年上市募4.6亿民生证券保荐

经济资讯站长 ⋅ 6阅读量 ⋅ 0评论 ⋅ 3小时前

2025-03-24

2025款问界M9正式上市，英得尔车载冰箱赋能智慧出行场景

汽车 honglida08 ⋅ 8阅读量 ⋅ 0评论 ⋅ 13小时前

2025-03-24
大模型江湖，算法与工程孰执生意牛耳？

科技 honglida08 ⋅ 10阅读量 ⋅ 0评论 ⋅ 1天前

2025-03-23
工商银行步步高升金条100g价格今天多少一克（2025年03月21日）

五金 honglida08 ⋅ 10阅读量 ⋅ 0评论 ⋅ 3天前

2025-03-21
拿下北美52%市场，受邀英伟达GTC2025，这家AR眼镜公司凭什么？

科技 honglida08 ⋅ 7阅读量 ⋅ 0评论 ⋅ 4天前

2025-03-20
美的人型机器人样机首度曝光：灵巧手操作惊艳

科技 honglida08 ⋅ 6阅读量 ⋅ 0评论 ⋅ 6天前

2025-03-18
03月17日济南废铜价格行情参考

五金 honglida08 ⋅ 5阅读量 ⋅ 0评论 ⋅ 7天前

2025-03-17
3月17日今天花生米价格行情走势查询

农村致富 honglida08 ⋅ 8阅读量 ⋅ 0评论 ⋅ 7天前

2025-03-17
Windows 11和10更新漏洞导致Copilot应用被卸载

科技 honglida08 ⋅ 6阅读量 ⋅ 0评论 ⋅ 7天前

2025-03-17
实验证明动量空间存在“量子龙卷风”

科技 honglida08 ⋅ 20阅读量 ⋅ 0评论 ⋅ 7天前

2025-03-17
首个爱奇艺乐园落地扬州，年内开园！副总裁：不突然，已做8年准备

科技 honglida08 ⋅ 1阅读量 ⋅ 0评论 ⋅ 9天前

2025-03-15

去ta空间

24小时热闻

今日推荐

(c)2016-2021 SOQUANMAO.COM All Rights Reserved搜全贸版权所有浙ICP备2021030705号-9

浙ICP备2021030705号-9