百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

深度学习新应用:在PyTorch中用单个2D图像创建3D模型

bigegpt 2024-08-22 10:24 2 浏览

选自Medium

作者:Phúc Lê

机器之心编译

参与:李诗萌、王淑婷

《AI先锋周刊》是—家关注人工智能学术研究、产业生态链、技术落地、边缘应用等维度的先锋电子新媒体。欢迎广大热爱AI的同道中人阅读、评论、转发、投稿,记得点击“关注”,随时获取全球AI最新讯息。

深度学习在诸多 2D 图像任务中表现出色,毋庸置疑。但如何将它应用于 3D 图像问题中呢?文本通过探索,将深度学习扩展到了单个 2D 图像的 3D 重建任务中,并成功实现了这一应用。

近年来,深度学习在解决图像分类、目标识别、语义分割等 2D 图像任务方面的表现都很出色。不仅如此,深度学习在 3D 图像问题中的应用也取得了很大的进展。本文试着将深度学习扩展到单个 2D 图像的 3D 重建任务中,这是 3D 计算机图形学领域中最重要也是最有意义的挑战之一。

任务

单个图像只是 3D 对象在 2D 平面的投影,所以一些高维空间的数据一定会在低维表征中丢失。因此,单视角 2D 图像中并没有足够的数据来构建其 3D 组件。

要根据单个 2D 图像创建 3D 感知,首先需要关于 3D 形状本身的先验知识。

在 2D 深度学习中,卷积自编码器是一种学习输入图像压缩表征的有效方法。将该架构拓展到学习紧凑形状知识是将深度学习应用于 3D 数据的最有前景方法。

3D 数据表征

与计算机格式中只有一种通用表征(像素)的 2D 图像不同,3D 数据能够以许多数字形式来表示。它们各有优缺点,所以数据表征的选择直接影响了使用它们的方法。

栅格化形式(体素网格):可以直接应用 CNN

每个蓝色的盒子表示单个体素,大部分体素都是空的。

体素是体积像素(volumetric pixel)的简称,它直接将空间网格像素拓展为体积网格体素。每一个体素的局部性共同定义了该体积数据独一无二的结构,因此 ConvNet 的局部性假设在立体形式中仍然成立。

体素表征密度低

但这种表征既稀疏又浪费。有用体素的密度会随着分辨率的增加而降低。

  • 优势: 从 2D 表征到 3D 表征,可以直接应用 CNN。
  • 劣势:容易浪费,要在细节和资源(计算力、内存)之间好好权衡。

几何形式:不能直接应用 CNN

椅子的点云表征

多边形网格:是三维空间中定义对象表面的顶点、边和面的集合。它可以在相当紧凑的表征中捕获粒度细节。

点云:3D 坐标(x,y,z)中点的集合,这些点一起形成了与 3D 对象形状类似的云。点的集合越大,获得的细节就越多。同一组顺序不同的点表示同样的 3D 对象。

  • 优势:表征紧凑,重点关注 3D 对象的表面细节。
  • 缺点:不能直接应用 CNN。


# point_cloud1 and point_cloud2 represent the same 3D structure
# even though they are represented differently in memory
point_cloud1 = [(x1, y1, z1), (x2, y2, z2),..., (xn, yn, zn)]
point_cloud2 = [(x2, y2, z2), (x1, y1, z1),..., (xn, yn, zn)]


方法

本文的实现结合了点云紧凑表征的优势,但是用了传统的 2D ConvNet 来学习先验形状知识。

2D 结构生成器

我们将构建标准的 2D CNN 结构生成器来学习目标的先验形状知识。我们没有用体素方法,因为它效率比较低下,而且不能直接用 CNN 学习点云。因此我们将学习从单个图像到点云的多个 2D 投影的映射,将一个视角的 2D 投影定义为:2D projection == 3D coordinates (x,y,z) + binary mask (m)

  • 输入:单个 RGB 图像
  • 输出:预先设定视角的 2D 投影


#--------- Pytorch pseudo-code for Structure Generator ---------#
class Structure_Generator(nn.Module):
 # contains two module in sequence, an encoder and a decoder
 def __init__(self):
 self.encoder = Encoder()
 self.decoder = Decoder()
 def forward(self, RGB_image):
 # Encoder takes in one RGB image and 
 # output an encoded deep shape-embedding
 shape_embedding = self.encoder(RGB_image)
 # Decoder takes the encoded values and output 
 # multiples 2D projection (XYZ + mask)
 XYZ, maskLogit = self.decoder(shape_embedding)
 return XYZ, maskLogit

点云融合

将预测得到的 2D 投影融合到原生 3D 点云数据中。这是有可能实现的,因为这些预测值的视角是固定的,而且是已知的。

  • 输入:预先设定视角的 2D 投影
  • 输出:点云。

伪渲染

我们认为,如果用预测的 2D 投影融合得到的点云有用,那么如果我们从新视角渲染出不同 2D 投影的话,它应该与真实 3D 模型的投影类似。

  • 输入:点云
  • 输出:新视角的深度图像

训练动态

由 2D 卷积结构生成器、融合模块以及伪渲染模块组成的完整架构。

将这三个模块组合在一起,我们得到了一个端到端模型,它可以只用 2D 卷积结构生成器,根据单个 2D 图像学习生成紧凑的点云表征。

这个模型的巧妙之处在于使融合模块和伪渲染模块可以纯粹地进行可微分的几何推理:

  • 几何代数意味着没有可学习的参数,这使得模型更小、更易于训练。
  • 可微分意味着我们可以反向传播梯度,从而用 2D 投影的损失来学习生成 3D 点云。


# --------- Pytorch pseudo-code for training loop ----------#
# Create 2D Conv Structure generator
model = Structure_Generator()
# only need to learn the 2D structure optimizer
optimizer = optim.SGD(model.parameters())
# 2D projections from predetermined viewpoints
XYZ, maskLogit = model(RGB_images)
# fused point cloud
#fuseTrans is predetermined viewpoints info
XYZid, ML = fuse3D(XYZ, maskLogit, fuseTrans)
# Render new depth images at novel viewpoints
# renderTrans is novel viewpoints info
newDepth, newMaskLogit, collision = render2D(XYZid, ML, renderTrans)
# Compute loss between novel view and ground truth
loss_depth = L1Loss()(newDepth, GTDepth)
loss_mask = BCEWithLogitLoss()(newMaskLogit, GTMask)
loss_total = loss_depth + loss_mask
# Back-propagation to update Structure Generator
loss_total.backward()
optimizer.step()


结论

比较来自真实 3D 模型的新深度图像和通过学到的点云模型渲染得到的深度图像。

最终结果:从单个 RGB 图像→3D 点云

有了详细的点云表征,就可以用 MeshLab 将单个 RGB 图像转换为其它表征,比如与 3D 打印机兼容的体素或多边形网格。

参考

  • Pytorch 代码:https://github.com/lkhphuc/pytorch-3d-point-cloud-generation
  • Tensorflow 代码:https://github.com/chenhsuanlin/3D-point-cloud-generation
  • 论文:https://arxiv.org/abs/1706.07036
  • 原始项目网站:https://chenhsuanlin.bitbucket.io/3D-point-cloud-generation/

参考链接:https://medium.com/vitalify-asia/create-3d-model-from-a-single-2d-image-in-pytorch-917aca00bb07

相关推荐

悠悠万事,吃饭为大(悠悠万事吃饭为大,什么意思)

新媒体编辑:杜岷赵蕾初审:程秀娟审核:汤小俊审签:周星...

高铁扒门事件升级版!婚宴上‘冲喜’老人团:我们抢的是社会资源

凌晨两点改方案时,突然收到婚庆团队发来的视频——胶东某酒店宴会厅,三个穿大红棉袄的中年妇女跟敢死队似的往前冲,眼瞅着就要扑到新娘的高额钻石项链上。要不是门口小伙及时阻拦,这婚礼造型团队熬了三个月的方案...

微服务架构实战:商家管理后台与sso设计,SSO客户端设计

SSO客户端设计下面通过模块merchant-security对SSO客户端安全认证部分的实现进行封装,以便各个接入SSO的客户端应用进行引用。安全认证的项目管理配置SSO客户端安全认证的项目管理使...

还在为 Spring Boot 配置类加载机制困惑?一文为你彻底解惑

在当今微服务架构盛行、项目复杂度不断攀升的开发环境下,SpringBoot作为Java后端开发的主流框架,无疑是我们手中的得力武器。然而,当我们在享受其自动配置带来的便捷时,是否曾被配置类加载...

Seata源码—6.Seata AT模式的数据源代理二

大纲1.Seata的Resource资源接口源码2.Seata数据源连接池代理的实现源码3.Client向Server发起注册RM的源码4.Client向Server注册RM时的交互源码5.数据源连接...

30分钟了解K8S(30分钟了解微积分)

微服务演进方向o面向分布式设计(Distribution):容器、微服务、API驱动的开发;o面向配置设计(Configuration):一个镜像,多个环境配置;o面向韧性设计(Resista...

SpringBoot条件化配置(@Conditional)全面解析与实战指南

一、条件化配置基础概念1.1什么是条件化配置条件化配置是Spring框架提供的一种基于特定条件来决定是否注册Bean或加载配置的机制。在SpringBoot中,这一机制通过@Conditional...

一招解决所有依赖冲突(克服依赖)

背景介绍最近遇到了这样一个问题,我们有一个jar包common-tool,作为基础工具包,被各个项目在引用。突然某一天发现日志很多报错。一看是NoSuchMethodError,意思是Dis...

你读过Mybatis的源码?说说它用到了几种设计模式

学习设计模式时,很多人都有类似的困扰——明明概念背得滚瓜烂熟,一到写代码就完全想不起来怎么用。就像学了一堆游泳技巧,却从没下过水实践,很难真正掌握。其实理解一个知识点,就像看立体模型,单角度观察总...

golang对接阿里云私有Bucket上传图片、授权访问图片

1、为什么要设置私有bucket公共读写:互联网上任何用户都可以对该Bucket内的文件进行访问,并且向该Bucket写入数据。这有可能造成您数据的外泄以及费用激增,若被人恶意写入违法信息还可...

spring中的资源的加载(spring加载原理)

最近在网上看到有人问@ContextConfiguration("classpath:/bean.xml")中除了classpath这种还有其他的写法么,看他的意思是想从本地文件...

Android资源使用(android资源文件)

Android资源管理机制在Android的开发中,需要使用到各式各样的资源,这些资源往往是一些静态资源,比如位图,颜色,布局定义,用户界面使用到的字符串,动画等。这些资源统统放在项目的res/独立子...

如何深度理解mybatis?(如何深度理解康乐服务质量管理的5个维度)

深度自定义mybatis回顾mybatis的操作的核心步骤编写核心类SqlSessionFacotryBuild进行解析配置文件深度分析解析SqlSessionFacotryBuild干的核心工作编写...

@Autowired与@Resource原理知识点详解

springIOCAOP的不多做赘述了,说下IOC:SpringIOC解决的是对象管理和对象依赖的问题,IOC容器可以理解为一个对象工厂,我们都把该对象交给工厂,工厂管理这些对象的创建以及依赖关系...

java的redis连接工具篇(java redis client)

在Java里,有不少用于连接Redis的工具,下面为你介绍一些主流的工具及其特点:JedisJedis是Redis官方推荐的Java连接工具,它提供了全面的Redis命令支持,且...