赞
踩
第一次写博客,主要是想找地方打卡记录一下自己立的一个flag:每周至少精读一篇论文。这也是以前读硕士的时候导师对我最起码的要求。毕业以后我开始松懈了,希望通过在这里记录,对自己起到一个警醒的作用。同时,将读论文时的想法记录成文字,也可以方便自己日后进行回顾查看。我目前的计划是,每一篇论文,大致按自己的感受描述一下论文,再按照论文十问的格式对这篇论文进行解剖。如果还有一些其他方面的理解,那么也会一并附上。
话不多说,第一篇论文,读的是我导师分享的ICLR2023杰出论文奖之一的《DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION》,这篇论文主要的研究内容就是设计一个二维扩散模型DreamFusion,当输入一段话时,可以使用其自动生成一个三维图像。
简单来说,DreamFusion这篇文章首先大致描述了扩散模型的原理,并且讲述了怎样使用扩散模型作为损失函数去帮助采样。基于此,论文提出了一种SDS方法,描述了使用SDS方法怎样对参数进行采样,而不是对像素采样。在随后讲解了NeRF的基本原理后,论文对整个算法进行了描述。算法一共分为四步:一、随机选取一个相机角度和光线;二、基于此使用NeRF渲染一张图片;三、计算SDS损失相对于NeRF参数的梯度;四、使用优化器更新NeRF的梯度。整个DreamFusion方法对这四步进行反复迭代,直到最后收敛。
实验方面,作者首先将DreamFusion与两种方法进行定性分析,从文章给出的图来看,DreamFusion的效果是几种方法最好的。定量分析方面,作者表明文本到三维图像生成方法方面没有特别好的判定方法,因此沿用了一种此前方法使用过的一种叫做R-Precision的评判标准去和其他方法比较,从数据来看,DreamFusion有一半的指标在三种方法中是最好的。最后作者还从三个方面对DreamFusion的五个模块进行了适应性分析,并分别作了定性和定量分析,得到的结果是五个模块都起到了好的作用。
对于这篇文章,我回答的比较简短,并且暂时没有进行论文十问回答。我的想法是这样的,虽然现在我已经完成了对这篇文章的精读,但是文章中的很多东西我还没有看懂,如扩散模型、NeRF等,需要翻阅引用的相关论文进行溯源,才能真正读懂。而如果在一知半解的情况下盲目进行论文十问回答,得到的答案感觉也不会有什么参考价值。因此,我计划等读完扩散模型、NeRF以及其他相关论文后,重新对这篇论文进行一次精读,等到那时再进行论文十问回答。
不得不感慨,想做成一件事是艰难的。开始精读以后发现,这篇文章对我难度不小。论文用的两方面技术,扩散模型和NeRF,原理我基本不懂,需要从头开始学习,此外,Imagen等特定对比学习技术也需要花时间去研究。读的过程也发生了很多事情,赶路时把笔记本屏幕给摔坏了,只能辗转各个网吧继续阅读,在工作中又有各种各种消磨人意志的事情不断发生。但我相信,前途是光明的,只要不断学习,就会越来越有上路。在精读论文的过程中,我也有了一个其他的发现:思维的锻炼和身体锻炼有相似之处,刚开始时都很痛苦、很煎熬,很让人感到折磨,但只要熬过了开头,并且能够持之以恒,一定能达到自己想要的效果。因此,不要害怕道路的艰险,因为这一路是值得的。加油!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。