伊瓢 发自 凹非寺
量子位 报道 | 公众号 QbitAI
“麻烦帮我把照片上这个美女转过来,脸朝前。”
设计师们总是接到这种神奇的需求,但是受限于素材和工具的“想象力”,设计师无法凭空推理出背影女子的正脸是美女还是恐龙,这种需求根本无法达成。
不过,AI似乎把这个问题解决了。不过转过来的不是美女,而是香车。
我们看到图上汽车的背影,几辆车在道路的右侧向前行驶。清华、MIT和谷歌的研究人员,通过AI“脑补”3D图形,成功的让最后面这辆黑色的车“掉头”了。
先打个左转弯转过来。
然后掉头180°,开始“逆行”。
而且除此之外,这项研究成果还可以实现“看图拍电影”功能,一张静态图就可以演化出一系列不同帧的镜头。
比如雾霾天气路上的车辆:
准备超车,成功超越,消失在雾霾中。
或者给道路上的车“喷上”不同的颜色。
这样看,似乎这项技术不仅帮设计师解决了难题,甚至以后电影拍摄也可以在GPU里进行了。
这项研究本身基于三类研究:
1.可解释的图像表示,比如Tejas D Kulkarni的DC-IGN;
2.深度生成模型,比如大家都知道的GAN;
3.深度图像处理,比如风格迁移。
不过这些研究主要还是围绕2D图像来进行的,我们介绍的这项新研究则在其中加入了3D感知。
语义、纹理、几何分层
主要的原理是将图像的语义、纹理、几何三个维度分层,分别经过一系列去渲染和渲染流程。
先让原图像经过语义去渲染器,生成语义地图;同时经过纹理去渲染器,生成纹理代码;然后还要经过几何去渲染器,生成3D属性。
3D属性经过几何渲染器后,与语义地图及纹理代码共同进行纹理渲染,最终实现图像分层,将图像分解为背景和多个前景对象。
3D几何推理:脑补3D
上图是几何解释模块。 该模块获取整个图像,使用来自对象提议的适当公式推断3D属性,并且可以生成可解释的表示以用于理解和操纵。这里首先使用MaskRCNN对对象实例进行分割。 对于每个对象,推断其3D网格模型和对象姿势。
之后,得出其3D属性,确保重新得出的3D投影一致。
语义&纹理推理
在语义和纹理分析的过程中,先要分析类似场景的2D信息。
使用两个单独的卷积网络来获得背景中道路、天空、树林等部分,以及前景中的轿车、货车等物体,以及的必要颜色和纹理描述代码。
传送门
3D-Aware Scene Manipulation via Inverse Graphics
Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu, Jiajun Wu, Antonio Torralba, William T. Freeman, Joshua B. Tenenbaum
https://arxiv.org/pdf/1808.09351.pdf
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
?'?' ? 追踪AI技术和产品新动态
本文暂时没有评论,来添加一个吧(●'◡'●)