1、三维场景设计综述范文(优选 3 篇)三维场景设计综述范文 第 1 篇 文中提供了一份 SSC 数据集的全面列表,展示在表 1 中。SSC 数据集被定义为包含有稀疏/密集数据和语义标签的配对。虽然有 14 个数据集符合这些条件,但只有一半被用于 SSC,其中四个最受欢迎的在表格中加粗,并在图 1 中预览。密集注释是一个明显的挑战。对于室内静态场景可以通过多视图或旋转装置完全捕获,但 3D 室外动态场景几乎不可能完全捕获,因为这需要无所不在的场景感应。真实情况 y 通常是通过聚合和标注一小段时间窗口 T 内的稀疏序列数据y0,y1,.,yT 获得的。对于室内的 RGB-D 数据集,通常利用结构光运
2、动(SfM)或视觉 SLAM(vSLAM)实现,但这会造成空洞、数据丢失和嘈杂的注释。这些不完美之处通常通过局部匹配 CAD 模型来推断密集完整的物体几何形状或通过后处理孔洞填充技术来减少。在室外环境中,点云注册技术使得将多个激光雷达测量合并到单一参考坐标系中成为可能。虽然经常被认为是密集的,但实际数据集中的真实场景通常是嘈杂且非连续的,实际上是对真实场景的近似。无论使用多少帧,某些场景部分仍然被遮挡,尤其是在动态环境中。传感器的精度和密度通常随着距离的增加而逐渐减少。刚性注册只能应对视点变化,导致动态物体(如移动汽车)产生轨迹,这对学习先验的影响仍在讨论中。另一个限制在于传感器,它们只感知几
3、何表面而不是体积,使所有固体物体变成壳体。为了生成语义标签,常见的做法是从多个虚拟视点观察聚合的 3D 数据以最小化标签歧义,这个过程是繁琐且容易出错的。最后,如图 3 所示,室内/室外数据集中的语义分布高度不平衡。三维场景设计综述范文 第 2 篇 令 x 是一个场景的不完整 3D 表示,SSC 是一个函数 f(.),它能够推断出一个密集的、语义上标注过的场景 y,使得 f(x)=y 尽可能地接近真实的 3D 场景 y。通常情况下,x 要比y 稀疏得多,复杂性在于固有的歧义性,尤其是当由于稀疏的感知或遮挡导致大量数据缺失时(例如图 2 所示的情况)。由此,问题不能通过简单地在 x 中插值数据来
4、解决,而是通常通过从稀疏输入和带有语义标签的密集 3D 场景(x,y 对)中学习先验知识来解决。稀疏的 3D 输入 x 的性质极大地影响了任务的复杂性。尽管可以从多种传感器获取 3D 数据,但 RGB-D/立体相机或激光雷达(LiDAR)是常用的。例如,RGB-D/立体相机提供了可见表面的密集描述,其中缺失的区域对应于被遮挡的区域,如图 2a所示。这减少了 SSC 任务到只在被遮挡的区域估计语义完成的范畴。相反,激光雷达数据提供了明显更稀疏的感知,随着距离的增加密度递减,而激光束的点返回覆盖空间的一小部分,导致未知体积的比例很高,如图 2b 所示。三维场景设计综述范文 第 3 篇 SSC 需要
5、同时输出几何和语义信息。虽然这两者是高度耦合的几何信息帮助理解语义,反之亦然但使用不同性质的输入数据,例如提供额外的纹理或几何洞察,自然有其优势。我们发现,大约三分之二的文献使用多模态输入,尽管在最近的作品中这似乎不那么流行(参见表 2输入列)。对于绝大多数多输入的作品,RGB 通常与各种几何输入一起使用6,16,17,32,33,43,51,76,77,79,86,89,180,因为它是获取语义的自然候选。即使没有颜色,通常也会采用2D 和 3D 模式的融合,因为这使得特征估计更为丰富。这是因为 2D 和 3D 的邻域是不同的,2D 数据是沿着传感器的光轴进行平面投影的结果。随后,一个常见的
6、策略是融合用不同的2D/3D 编码处理的几何特征,以获得更丰富的局部场景描述符。在文献6中,深度和占用被融合,而文献78使用深度和类似TSDF 的数据。如前所述(参见第节),TSDF 提供了一个梯度场,有助于网络收敛。最后,也发现了面向应用的融合,例如在21中融合了鸟瞰图和几何输入这更适合室外 SSC。我们将融合类型分为三类,如图 9 所示。融合可以在输入层(早期融合)、中间层特征(中期融合)或在后期/输出层(晚期融合)应用。在表 2 的融合策略列中,它们分别被标为 E、M 和 L。早期融合。最简单的方法是在任何进一步处理之前合并输入模态6,22,33,43,51,54,180,见图 9a。这
7、里有两种策略:当空间对齐时(例如 RGB/Depth),可以按通道进行合并;或者,可以将输入投影到一个共享的 3D 空间(即特征提升)。对于空间对齐的模态,常见的是使用法线/深度对54或RGB/语义对6,并用 2D CNN 来处理它们。第二种策略是将任何 2D 输入提升到 3D假设有深度信息和准确的传感器间校准然后用 3D 网络处理。这已经在 RGB/深度51、深度/语义22,43、点/语义180中完成。除非使用点,这第二种策略会导致一个稀疏张量,因为并非所有 3D 单元都有特征。值得注意的是,6,22,43,180使用了语义,这是首先从 RGB 或类似深度的数据估计出来的。一个 2D 或 3D 网络处理合并的张量,而逻辑上它超过了单一模态输入32,43,54