硅谷大力押注“环境”技术,用于训练AI智能体

  多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 O...

硅谷大力押注“环境”技术,用于训练AI智能体

  多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 OpenAI 的 ChatGPT Agent,还是 Perplexity 的 Comet)投入实际使用便会发现,这项技术的局限性仍十分明显。要让 AI 智能体具备更强的稳健性,或许需要行业尚未完全探索出的一系列新技术支持。

  其中一项技术便是精心模拟 “工作空间”,让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集推动了上一波 AI 发展浪潮,强化学习环境正逐渐成为智能体开发过程中的关键要素。

  AI 研究人员、创业者及投资者透露,目前顶尖 AI 实验室对强化学习环境的需求大幅增加,而有意提供此类技术的初创公司也不在少数。

  “所有大型 AI 实验室都在内部搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)普通合伙人珍妮弗・李表示,“但可想而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质量环境与评估体系的第三方供应商。整个行业都在关注这一领域。”

  对强化学习环境的需求催生了一批资金雄厚的新兴初创公司,例如 Mechanize Work 和 Prime Intellect,这些公司均致力于在该领域占据领先地位。与此同时,Mercor、Surge 等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的投入以跟上趋势。大型实验室同样在考虑巨额投资:据《The Information》报道,Anthropic 的管理层已讨论计划在未来一年内,为强化学习环境投入超 10 亿美元。

  投资者与创业者们期望,这些初创公司中能诞生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿美元的数据标注巨头,曾为聊天机器人时代的发展提供了重要支撑。

  目前的核心问题在于,强化学习环境是否真能推动 AI 技术突破现有边界。

  什么是强化学习(RL)环境?

  从本质上讲,强化学习环境是模拟 AI 智能体在真实软件应用中操作场景的 “训练场”。一位创业者在近期采访中形容其构建过程 “就像制作一款非常枯燥的电子游戏”。

  例如,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一双袜子” 的任务。系统会对智能体的表现进行评分,若任务成功(即买到合适的袜子),便会向其发送 “奖励信号”。

  尽管这类任务听起来相对简单,但 AI 智能体在执行过程中仍可能在多个环节出错:可能在网页下拉菜单中 “迷路”,也可能误购多双袜子。由于开发者无法精准预测智能体可能出现的失误,环境本身必须具备足够的稳健性,既能捕捉所有意外行为,又能提供有效的反馈 —— 这使得构建环境的复杂度远高于创建静态数据集。

  部分强化学习环境设计十分复杂,可支持 AI 智能体使用工具、访问互联网或调用各类软件应用完成指定任务;另有部分环境则定位更细分,专注于帮助智能体学习企业级软件应用中的特定任务。

  尽管强化学习环境如今是硅谷的热门技术,但使用这类技术的先例早已有之。2016 年,OpenAI 的首批项目之一便是构建 “RL Gyms”(强化学习场馆),其理念与现代强化学习环境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系统击败围棋世界冠军,该系统同样在模拟环境中采用了强化学习技术

  如今的强化学习环境之所以具有独特性,在于研究人员正尝试结合大型 Transformer 模型,打造能 “使用计算机” 的 AI 智能体。与 AlphaGo(仅适用于封闭环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的能力。当前的 AI 研究人员虽拥有更坚实的技术起点,但目标也更为复杂,可能出现的问题也更多。

  竞争激烈的领域

  Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,着力打造强化学习环境。这些公司不仅比该领域多数初创企业拥有更充足的资源,还与 AI 实验室建立了深厚的合作关系。

  Surge 首席执行官埃德温・陈(Edwin Chen)表示,近期已观察到 AI 实验室对强化学习环境的需求 “显著增长”。他透露,Surge 去年通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室合作,营收据称达到 12 亿美元;该公司近期已成立专门的内部团队,负责强化学习环境的搭建工作。

  紧随 Surge 之后的是估值 100 亿美元的初创公司 Mercor,该公司同样与 OpenAI、Meta、Anthropic 有合作。TechCrunch 获取的营销材料显示,Mercor 正向投资者推介其核心业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。

  Mercor 首席执行官布伦丹・富迪(Brendan Foody)在采访中表示:“很少有人真正意识到,强化学习环境领域蕴含的机遇究竟有多大。”

  Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿美元并挖走其首席执行官后,该公司的市场份额逐渐下滑。此后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,甚至在 Meta 内部,Scale AI 也面临数据标注业务的竞争压力。尽管如此,Scale AI 仍在努力适应趋势,投身强化学习环境的构建。

  “这正是(Scale AI)所处行业的本质,”Scale AI 负责智能体与强化学习环境的产品负责人切坦・拉内(Chetan Rane)表示,“Scale 已证明其快速适应的能力:在我们的首个业务板块 —— 自动驾驶领域的早期阶段,我们做到了这一点;ChatGPT 问世后,Scale AI 也成功适应了新趋势;如今,我们再次在智能体、环境等新前沿领域进行调整。”

  部分新兴企业从创立之初便专注于强化学习环境领域。成立约 6 个月的初创公司 Mechanize Work 便是其中之一,该公司提出了 “实现所有工作自动化” 的大胆目标。不过,联合创始人马修・巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正从为 AI 编程智能体打造强化学习环境起步。

  巴尼特表示,Mechanize Work 计划为 AI 实验室提供少量高稳健性的强化学习环境,而非像大型数据公司那样打造大量简单的强化学习环境。为此,该初创公司为软件工程师开出了 50 万美元的年薪(用于构建强化学习环境),这一薪资远高于在 Scale AI 或 Surge 从事小时工性质工作的报酬。

  两位知情人士透露,Mechanize Work 已开始与 Anthropic 合作开发强化学习环境。对此,Mechanize Work 与 Anthropic 均拒绝就合作细节置评。

  另有部分初创公司押注强化学习环境在 AI 实验室之外的领域也将产生影响力。由 AI 研究员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支持的初创公司 Prime Intellect,正将其强化学习环境定位为服务中小型开发者。

  上个月,Prime Intellect 推出了强化学习环境中心,目标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域知名开源社区)。该平台旨在让开源开发者获得与大型 AI 实验室同等的资源支持,同时在此过程中向开发者出售计算资源访问权限。

  Prime Intellect 研究员威尔・布朗(Will Brown)表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本可能高于以往的 AI 训练技术。因此,除了打造强化学习环境的初创公司,为这一过程提供算力支持的 GPU 供应商也将迎来机遇。

  “没有任何一家公司能独自主导强化学习环境领域,其规模太大了,” 布朗在采访中说,“我们目前所做的部分工作,只是尝试围绕该领域搭建良好的开源基础设施。我们的核心服务是提供计算资源,这确实是使用 GPU 的便捷入口,但我们更着眼于长期发展。”

  能否实现规模化发展?

  关于强化学习环境,目前尚未有定论的问题是:这项技术能否像以往的 AI 训练方法那样实现规模化发展?

  过去一年,强化学习推动了 AI 领域多项重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。这些突破意义重大,因为此前用于改进 AI 模型的方法如今正显现出 “收益递减” 的趋势。

  强化学习环境是 AI 实验室对强化学习技术 “更大押注” 的一部分 —— 许多人认为,随着在该技术中投入更多数据与计算资源,强化学习将持续推动 AI 进步。OpenAI 负责 o1 模型的部分研究人员此前透露,该公司最初之所以投资 AI 推理模型(通过对强化学习和测试时计算的投入开发而成),正是因为他们认为这类模型具备良好的规模化潜力。

  目前,强化学习实现规模化的最佳路径尚不明确,但强化学习环境似乎是颇具潜力的方向。与仅通过文本回复奖励聊天机器人不同,强化学习环境能让智能体在模拟场景中操作工具、使用计算机完成任务 —— 这种方式虽然对资源的消耗远更高,但潜在的回报也更大。

  也有部分人士对强化学习环境的发展前景持怀疑态度。曾担任 Meta AI 研究负责人、现联合创立 General Reasoning 公司的罗斯・泰勒表示,强化学习环境容易出现 “奖励作弊”(reward hacking)现象 —— 即 AI 模型为获得奖励而 “作弊”,并未真正完成任务。

  “我认为人们低估了环境规模化的难度,” 泰勒说,“即便是目前公开可用的最佳(强化学习环境),若不进行大幅修改,通常也无法正常使用。”

  OpenAI API 业务工程负责人舍温・吴(Sherwin Wu)在近期播客中表示,他对强化学习环境领域的初创公司 “持看空态度”。吴指出,该领域竞争异常激烈,且 AI 研究发展速度极快,要为 AI 实验室提供优质服务难度很大。

  卡帕西(作为 Prime Intellect 的投资者,曾称强化学习环境可能成为突破性技术)也对整个强化学习领域表达了谨慎态度。他在社交平台 X 的帖子中提出疑问:通过强化学习技术,AI 还能实现多大程度的进步?

  “我对环境与智能体交互持乐观态度,但对强化学习本身持悲观态度。” 卡帕西表示。

本文来自作者[100a]投稿,不代表黄峰号立场,如若转载,请注明出处:https://100a.cn/mrs/202509-21206.html

(4)

文章推荐

  • 玻璃钢防腐的做法是怎样的 玻璃钢防腐的施工方法

    玻璃钢防腐的做法是怎样的 具体做法包括一布三涂、二布四涂、三布五涂、四布六涂、五布七涂环氧树脂玻璃钢防腐等,又称一布三油、二布四油、三布五油、四布六油、五布七油环氧树脂玻璃钢防腐,布指的是玻璃纤维布,涂(又称油、胶)指的是树脂(如环氧树脂、不饱和聚酯树脂、乙烯基酯树脂、呋喃树脂、酚醛树脂等)或作为耐

    2025年07月06日
    1742311
  • [教程经验]wpk微扑克辅助作弊透视挂”详细开挂教程

    亲,wpk微扑克开挂神器下载软件这款游戏原来确实可以开挂,详细开挂教程请添加完美QQ群进群免费测试1、起手看牌2、随意选牌3、控制牌型4、注明,就是全场,公司软件防封号、防检测、 正版软件、非诚勿扰。2025首推。全网独家,诚信可靠,无效果

    2025年06月11日
    59312
  • 原来真的有挂“天天摸麻将是不是有挂!(详细透视教程)-知乎

    亲,天天摸麻将是不是有挂开挂神器下载软件这款游戏原来确实可以开挂,详细开挂教程请添加我们的(Q Q群),免费测试1、起手看牌2、随意选牌3、控制牌型4、注明,就是全场,公司软件防封号、防检测、 正版软件、非诚勿扰。2025独家首推,技术新升级,效果显著,操作简单

    2025年06月15日
    51315
  • 教程辅助“皮皮广东麻将辅助器工具”分享装挂详细步骤

    模板3文章内容段落1示例333333332323232,辅助器工具”分享装挂详细步骤模板3文章内容段落2示例文字,双机编队返航后,剩下的两个单机继续表演,这时飞机的发动机加力打开有一阵子了,珠海时就熟悉的轰鸣和震撼也随之回来了。大推力涡扇发动机那低沉、威严的怒吼,只有亲历过航展的人才能体验的。模板3

    2025年06月17日
    63307
  • 玩家必备教程‘闽游麻将能开挂吗!(原来确实是有挂)

    亲,闽游麻将能开挂吗开挂神器下载软件这款游戏原来确实可以开挂,详细开挂教程请添加我们的(Q Q群),免费测试1、起手看牌2、随意选牌3、控制牌型4、注明,就是全场,公司软件防封号、防检测、 正版软件、非诚勿扰。2025独家首推,技术新升级,效果显著,操作简单

    2025年06月18日
    53319
  • 辅助神器“HHpoker开挂透视挂辅助!分享用挂教程

    本司针对HHpoker开挂透视挂辅助手游进行全面研发,可先测试看效果,选择我们的四大理由:1、软件助手是一款功能更加强大的软件!2、自动连接,用户只要开启软件,就会全程后台自动连接程序,无需用户时时盯着软件。3、安全保障,使用这款软件的用户可以非常安心,绝对没有被封的危险存在。4、快速稳定,使用这款

    2025年06月19日
    59301
  • 实操教程“决战血流麻将万能挂”详细分享装挂步骤

    在当今的网络决战血流麻将中,决战血流麻将作为一款备受欢迎的在线扑克平台,吸引了大量玩家的关注。然而,随着玩家数量的增加,关于作弊和辅助工具的讨论也愈演愈烈。尤其是“决战血流麻将透视作弊辅助挂”这一话题,成为了许多玩家热议的焦点。这种辅助工具真的存在,添加[QQ客户群]下载正版外挂软件,可免费测试决

    2025年06月19日
    44304
  • 重大发现“aapoker透视挂作弊方法!详细分享装挂步骤

    您好:aapoker透视挂作弊方法,很多玩家在这款游戏中,打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的通过添加客服通过添加QQ接单群支持测试,微信禁止出售app辅助系统!请添加QQ客户群咨询了解 

    2025年06月20日
    50312
  • 开挂技巧“哥哥打大A辅助神器”(确实是有挂)-知乎

    哥哥打大A辅助神器辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加入我们(QQ群聊)免费测试,先看效果下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出手机

    2025年06月30日
    41317
  • 必看教程“越乡游双扣辅助器工具”分享装挂详细步骤

    在当今的网络越乡游双扣中,越乡游双扣作为一款备受欢迎的在线扑克平台,吸引了大量玩家的关注。然而,随着玩家数量的增加,关于作弊和辅助工具的讨论也愈演愈烈。尤其是“越乡游双扣透视作弊辅助挂”这一话题,成为了许多玩家热议的焦点。这种辅助工具真的存在,添加QQ客户群下载正版外挂软件,可免费测试越乡游双扣透视

    2025年06月30日
    44319

发表回复

本站作者才能评论

评论列表(3条)

  • 100a的头像
    100a 2025年09月17日

    我是黄峰号的签约作者“100a”

  • 100a
    100a 2025年09月17日

    本文概览:  多年来,科技巨头的首席执行官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件应用为人类完成任务。但如今将消费者级 AI 智能体(无论是 O...

  • 100a
    用户091705 2025年09月17日

    文章不错《硅谷大力押注“环境”技术,用于训练AI智能体》内容很有帮助

联系我们

邮件:黄峰号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

黄峰号