英伟达Lyra2.0：单照生成90米3D环境，具身智能训练迎来关键突破

英伟达近日发布Lyra2.0系统，通过单张照片生成90米高连贯性3D虚拟环境，解决长距离失真问题，核心指标超越谷歌、Meta等竞争对手，满足具身智能训练需求，推动AI在3D空间理解领域进展。

近日，英伟达在年度GPU技术大会（GTC）上发布了Lyra2.0系统。这款基于AI的3D场景生成工具，仅需一张照片就能生成覆盖90米范围的大规模、高连贯性虚拟环境，解决了传统3D生成技术在长距离相机路径下容易出现图像失真的难题。彭博社长期关注中美科技巨头动态的专家指出，这一技术突破标志着AI在3D空间理解与实时环境模拟领域取得了关键进展，尤其能满足具身智能训练对高质量虚拟场景的迫切需求。

当前，具身智能（如服务机器人、自动驾驶系统）的训练需要大量真实且多样化的3D场景，但传统场景构建方法存在成本高昂、周期漫长、长距离场景连贯性不足等问题。比如，要搭建一个100米范围的虚拟城市街区，传统3D建模工具往往需要数周时间，还很容易出现几何畸变；而Lyra2.0只需一张街景照片，就能在数分钟内生成90米半径的三维环境，其像素级连贯性达到98%，较前代Lyra1.0的30米范围提升了200%，同时长距离路径下的图像失真率降至0.5%以下。和行业内同类产品相比，谷歌Instant NeRF的最大生成范围约10米，Meta的SAM 3D场景连贯性约92%，Lyra2.0在核心指标上都有明显优势。

Lyra2.0的核心技术源于改进后的神经辐射场（NeRF）架构与实时相机路径优化算法的结合。该系统通过深度学习模型对单张照片中的空间信息进行多维度分析，利用注意力机制确保长距离场景的几何一致性，同时采用轻量化神经渲染模块实现实时可视化。具体来说，Lyra2.0的模型参数规模达到1.2亿，能支持每秒30帧的实时渲染，且兼容英伟达A100及以上算力的GPU，这让它在工业级应用中具备可行性。

在应用层面，Lyra2.0能大幅降低具身智能训练的场景构建成本。例如，自动驾驶企业可借助该工具快速生成多样化的城市道路场景，训练数据的获取效率可提升80%；服务机器人厂商则能通过单张家庭照片生成虚拟家居环境，加快机器人导航与交互能力的训练进程。此外，这项技术还可应用于VR/AR内容创作、游戏开发等领域，助力相关产业提升效率。

行业近期动态显示，具身智能已是全球科技巨头的布局重点。近期，OpenAI宣布向专注于3D场景生成的初创公司投入5000万美元，目的是增强其具身智能模型的训练数据支撑能力；谷歌则计划在2024年第四季度发布Instant NeRF 3.0，目标是将生成范围提升至50米，但仍落后于Lyra2.0的90米指标。其他竞争对手中，Meta正在测试基于LLaMA大模型的3D场景生成工具，尝试通过自然语言指令生成场景，但目前在连贯性与范围上还未达到Lyra2.0的水平；苹果也在VR/AR领域布局3D生成技术，但进展尚未公开。

彭博社专家认为，Lyra2.0的发布不仅巩固了英伟达在AI硬件与软件生态中的领先地位，还将推动具身智能从实验室走向实际应用。随着3D场景生成技术不断成熟，未来具身智能系统的训练成本会进一步下降，应用场景也会越来越广，这一趋势值得全球科技行业持续留意。