英伟达发布通用智能体NitroGen 4万小时游戏视频训练出的全能玩家

匿名作者
2025-12-22 10:2726

导语 英伟达推出基于OpenVision的通用游戏智能体NitroGen,该模型通过分析YouTube和Twitch上超过4万小时带控制器图层的游戏视频,学会了跨不同游戏类型的操作逻辑。测试显示,其在陌生环境中的表现比传统模型高出52%,相关代码与数据已全部开源。

从视频旁观者到全能操作者

为了让NitroGen掌握复杂的操控逻辑,研究团队挖掘了一个此前被学术界忽视的数据宝库 YouTube和Twitch上带有控制器叠加层的游戏视频。

通过分析1000多款游戏、总计超过4万小时的玩家录像,NitroGen学会了如何根据视觉反馈直接生成操作指令。AIbase了解到,研究人员利用模板匹配和微调后的SegFormer模型,精准地从海量视频中提取出了玩家的实时按键输入数据,实现了从“看”到“玩”的进化。

Google_AI_Studio_2025-12-22T02_20_42.284Z.png

图源备注:图片由AI生成

跨平台适应力与卓越性能

在技术架构上,NitroGen深度集成了英伟达此前发布的GR00T N1.5机器人模型,这赋予了它强大的跨平台适应能力。测试数据显示,无论是动作角色扮演、平台跳跃还是Roguelike等风格迥异的游戏,它都能轻松驾驭。

即使被置于完全陌生、未曾见过的游戏环境中,它的表现也比从头训练的模型成功率高出52%。这一结果充分证明了机器人基础模型在虚拟环境中的通用性,不再局限于单一任务。

全面开源推动行业发展

目前,这支由英伟达、斯坦福及加州理工学院等顶尖学术机构组成的联合研究团队,已正式将该项目的论文、代码及相关数据集开源。这一举措旨在为全球AI社区在具身智能和通用代理领域的进一步探索提供重要基石。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译