英伟达Lyra2.0:单照生成90米3D环境,具身智能训练迎来关键突破

2026.04.17 14:49
英伟达近日发布Lyra2.0系统,通过单张照片生成90米高连贯性3D虚拟环境,解决长距离失真问题,核心指标超越谷歌、Meta等竞争对手,满足具身智能训练需求,推动AI在3D空间理解领域进展。

近日,英伟达在年度GPU技术大会(GTC)上发布了Lyra2.0系统。这款基于AI的3D场景生成工具,仅需一张照片就能生成覆盖90米范围的大规模、高连贯性虚拟环境,解决了传统3D生成技术在长距离相机路径下容易出现图像失真的难题。彭博社长期关注中美科技巨头动态的专家指出,这一技术突破标志着AI在3D空间理解与实时环境模拟领域取得了关键进展,尤其能满足具身智能训练对高质量虚拟场景的迫切需求。

当前,具身智能(如服务机器人、自动驾驶系统)的训练需要大量真实且多样化的3D场景,但传统场景构建方法存在成本高昂、周期漫长、长距离场景连贯性不足等问题。比如,要搭建一个100米范围的虚拟城市街区,传统3D建模工具往往需要数周时间,还很容易出现几何畸变;而Lyra2.0只需一张街景照片,就能在数分钟内生成90米半径的三维环境,其像素级连贯性达到98%,较前代Lyra1.0的30米范围提升了200%,同时长距离路径下的图像失真率降至0.5%以下。和行业内同类产品相比,谷歌Instant NeRF的最大生成范围约10米,Meta的SAM 3D场景连贯性约92%,Lyra2.0在核心指标上都有明显优势。

Lyra2.0的核心技术源于改进后的神经辐射场(NeRF)架构与实时相机路径优化算法的结合。该系统通过深度学习模型对单张照片中的空间信息进行多维度分析,利用注意力机制确保长距离场景的几何一致性,同时采用轻量化神经渲染模块实现实时可视化。具体来说,Lyra2.0的模型参数规模达到1.2亿,能支持每秒30帧的实时渲染,且兼容英伟达A100及以上算力的GPU,这让它在工业级应用中具备可行性。

在应用层面,Lyra2.0能大幅降低具身智能训练的场景构建成本。例如,自动驾驶企业可借助该工具快速生成多样化的城市道路场景,训练数据的获取效率可提升80%;服务机器人厂商则能通过单张家庭照片生成虚拟家居环境,加快机器人导航与交互能力的训练进程。此外,这项技术还可应用于VR/AR内容创作、游戏开发等领域,助力相关产业提升效率。

行业近期动态显示,具身智能已是全球科技巨头的布局重点。近期,OpenAI宣布向专注于3D场景生成的初创公司投入5000万美元,目的是增强其具身智能模型的训练数据支撑能力;谷歌则计划在2024年第四季度发布Instant NeRF 3.0,目标是将生成范围提升至50米,但仍落后于Lyra2.0的90米指标。其他竞争对手中,Meta正在测试基于LLaMA大模型的3D场景生成工具,尝试通过自然语言指令生成场景,但目前在连贯性与范围上还未达到Lyra2.0的水平;苹果也在VR/AR领域布局3D生成技术,但进展尚未公开。

彭博社专家认为,Lyra2.0的发布不仅巩固了英伟达在AI硬件与软件生态中的领先地位,还将推动具身智能从实验室走向实际应用。随着3D场景生成技术不断成熟,未来具身智能系统的训练成本会进一步下降,应用场景也会越来越广,这一趋势值得全球科技行业持续留意。

作品声明:内容由AI生成