导语 英伟达推出基于OpenVision的通用游戏智能体NitroGen,该模型通过分析YouTube和Twitch上超过4万小时带控制器图层的游戏视频,学会了跨不同游戏类型的操作逻辑。测试显示,其在陌生环境中的表现比传统模型高出52%,相关代码与数据已全部开源。
从视频旁观者到全能操作者
为了让NitroGen掌握复杂的操控逻辑,研究团队挖掘了一个此前被学术界忽视的数据宝库 YouTube和Twitch上带有控制器叠加层的游戏视频。
通过分析1000多款游戏、总计超过4万小时的玩家录像,NitroGen学会了如何根据视觉反馈直接生成操作指令。AIbase了解到,研究人员利用模板匹配和微调后的SegFormer模型,精准地从海量视频中提取出了玩家的实时按键输入数据,实现了从“看”到“玩”的进化。

跨平台适应力与卓越性能
在技术架构上,NitroGen深度集成了英伟达此前发布的GR00T N1.5机器人模型,这赋予了它强大的跨平台适应能力。测试数据显示,无论是动作角色扮演、平台跳跃还是Roguelike等风格迥异的游戏,它都能轻松驾驭。
即使被置于完全陌生、未曾见过的游戏环境中,它的表现也比从头训练的模型成功率高出52%。这一结果充分证明了机器人基础模型在虚拟环境中的通用性,不再局限于单一任务。
全面开源推动行业发展
目前,这支由英伟达、斯坦福及加州理工学院等顶尖学术机构组成的联合研究团队,已正式将该项目的论文、代码及相关数据集开源。这一举措旨在为全球AI社区在具身智能和通用代理领域的进一步探索提供重要基石。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!