3分钟 vs 40分钟:JanusMesh零样本3D视错觉,跨空间去噪让AI学会「一物两面」

2026.06.19 13:20
台湾阳明交通大学论文JanusMesh被ECCV 2026接收,提出跨空间双分支去噪框架,将3D视错觉生成从约40分钟压缩至3-5分钟且无需训练。该方法基于TRELLIS和Stable Diffusion等已有组件,通过隐空间与体素空间的往返穿梭实现语义融合,支持2对象到3对象的多模式视错觉生成,展示了「不给模型加参数、给流程加结构」的方法论趋势。

从正面看,它是一只开屏的孔雀。绕到侧面——它变成了一颗菠萝。这不是魔术,不是PS拼接,这是一个单一的3D网格,从不同视角呈现完全不同的语义。

人类玩这个把戏几千年了——从古希腊双面神Janus雕像到文艺复兴变形画。但让AI自动生成它,长期陷入尴尬。

6月18日,台湾阳明交通大学视觉计算实验室的论文被ECCV 2026接收——JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising。它将生成时间从约40分钟压缩到3-5分钟,且无需任何训练。输入两段文本,直接输出可3D打印的双语义网格。

JanusMesh的价值不止于"快"。它提出了一种新范式:跨空间双分支去噪

"一物两面"为什么这么难?

AI之前的3D视错觉完全依赖手工创作。AI来了之后的两条路线各有硬伤。

SDS优化方法慢(约40分钟/任务)且色彩严重过饱和。论文描述为"severe over-saturation"。

直接拼接——分别生成两个网格再硬拼——产生明显接缝和语义泄露,两边不讨好。

JanusMesh在两个方面同时给出了系统性回应。

跨空间去噪:同时在两间房装修

双分支+跨空间解码

传统3D扩散模型在统一隐空间工作,无法同时朝向两个语义约束优化。

JanusMesh采用两阶段框架。第一阶段(几何融合):双分支各自从独立噪声开始,分别对应两个文本提示。每一步去噪后,隐表示被解码到体素空间(voxel space),完成两件事——CLIP引导方向对齐确保"孔雀"那面像孔雀;SDF混合在边界平滑插值产生单一连续表面。混合后重新编码回隐空间继续去噪。如此循环直到几何无缝。

论文基于TRELLIS(CVPR 2025,3D生成骨干)作为隐空间基础架构。

第二阶段(纹理合成):用Stable Diffusion从每个目标视角生成2D外观,投影回网格表面形成纹理贴图。

精妙之处:几何融合在体素空间(连续可导),纹理合成在2D空间(利用Stable Diffusion生成力),两者通过隐空间↔体素空间穿梭实现信息交换。这就是"跨空间"的真意。

三种模式

JanusMesh支持2对象(CLIP旋转)、2对象(固定角度)和3对象视错觉。从2到3的跨越证明方法通用性远超"两面画"。

8倍加速,质量全面超越

现有SDS方法约40分钟/任务,JanusMesh只需3-5分钟。质量上使用CLIP score、GPT-4.1-mini语义判断、FID/KID和Object Detection度量四组指标全面超越现有方案。

方法论意义

JanusMesh没有训练任何新模型——全部依赖TRELLIS、Stable Diffusion、CLIP等已有组件。这是典型的"不给模型加参数,给流程加结构",呼应了计算机视觉从"训练更大模型"到"更聪明使用已有模型"的趋势。同时,"跨空间"正在成为新的设计范式。

这意味着什么?

对3D生成:零样本范式从"生成普通物体"扩展到"生成有语义层的物体"。

对AR/VR和游戏:视错觉在交互场景中有天然价值——同一道具不同场景不同形象、同一AR界面不同角度不同信息。JanusMesh让设计从手工变为"文本即所得"。

对数字艺术:3-5分钟快速迭代的能力,在手工时代不可想象。

当前局限包括纹理模糊控制、场景级拓展和动态视错觉延伸。但一条被打开的路,总会有人走得更远。

从古希腊双面神雕像到AI跨空间去噪——Janus的两张脸从未改变,但造出它们的方式,被永远改写了。

作品声明:内容由AI生成