ECCV 2024揭榜, 录用率或创新低! 2395篇论文中选, 网友晒出成绩单

之槐看科技2024-07-02 14:28:57  93

【新智元导读】两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。

ECCV 2024录用结果终于公布了!

一大早,ECC组委会放出了所有被接受论文的ID名单,共录用了2395篇论文。

有网友估算了下,今年论文总提交量大约有12600篇,录用率是18%。简直不敢相信今年ECCV的录用率如此之低,CVPR 2024录用率还是23.6%。

再往前倒推,2020年ECCV共收到有效投稿5025篇,接收论文1361篇,接收率为27%。2018年共有2439篇投稿,接收776篇,录用率为31.8%。

ECCV表示,在接下来的几天里,还将公布最终的评审意见和元评审意见。还有论文Poster/Oral结果也将在随后揭晓。

今年,是ECCV召开的第18届顶会,将于9月29日-10月4日在意大利米兰正式开幕。

ECCV(欧洲计算机视觉国际会议)创办于1887年,每两年举办一次。

它与CVPR(每年一届)ICCV(每两年一届)并称计算机视觉方向的三大顶级会议。

收到录用结果的小伙伴们,已经开始分享自己的成果了。

网友晒出成绩单

一位小伙伴Jeff Li同一天双喜临门,不仅收到了入职英伟达的offer,同时2篇论文被ECCV接收。

斯坦福计算机博士生,清华校友Congyue Deng实现了在噪声和特征不准确的情况下,获得更好的图像对应关系。

为此,作者提出了Laplacian特征函数,可以将图像对应问题性像素空间提升到函数空间,并直接优化全局一致的映射。

实验结果证明,新技术不仅能产生更平滑,而且更准确的对应关系,还能更好地反映作者所研究的大规模视觉模型中嵌入的知识。

论文地址:https://arxiv.org/abs/2403.12038

佐治亚理工学院Bolin Lai博士联手Meta、UIUC团队发表论文,提出了以自我为中心的动作框架——LEGO,由多模态模型和扩散模型组成,通过指令微调丰富动作提示。

最新框架的设计目标是,通过输入用户提示和以自我视角为中心的图像,基于用户的「上下文」(即动作帧)描述动作。然后用户再去学习,如何去无缝完成自己的工作。

论文中提出新模型能够按照指令生成一致的动作,并在动作过程中发生视点变化时,依旧保持一致性。此外,LEGO模型还可以在相同的上下文中,推广到各种看不见的动作。

高斯泼溅

来自UT Austin的博士生Zhiwen Fan,有3篇论文都被ECCV 2024接收了。

这几篇论文探索了许多新的领域:从稀疏视图进行3D重建、高质量3D多任务学习,以及使用全景格式的大规模3D生成。

在DreamScene360中,作者提出了一种3D全景的场景级别生成流程,该流程利用GPT-4V结合2D扩散模型和全景高斯泼溅技术,从任何具体程度的文本提示中生成具有完整360度覆盖的沉浸式高质量场景,实现了卓越的3D场景生成质量和实时的渲染速度。

项目地址:https://dreamscene360.github.io/

在FSGS中,作者提出了一种基于3D高斯泼溅的稀疏视角合成框架,该框架能够在仅有三张训练视图的情况下实现实时和高质量的视角合成。

作者通过精心设计的高斯Unpooling过程来处理稀疏的COLMAP点云,并在最具代表性的位置周围迭代分布新的高斯,随后在空白区域填充局部细节。

此外,作者还在高斯优化过程中集成了一个大规模预训练的单目深度估计器,利用在线增强视图引导几何优化走向最佳解决方案。

从有限输入视点观察到的稀疏点开始,FSGS可以准确地扩展到未见过的区域,全面覆盖场景并提升新视角的渲染质量。

总体而言,FSGS在包括LLFF、Mip-NeRF360和Blender在内的各种数据集上,在图像质量达到了SOTA的性能,渲染速度比基于NeRF的方法快2,000倍以上。

项目地址:https://zehaozhu.github.io/FSGS/

在VersatileGaussian中,作者提出将Multi-task Learning引入Gaussian Splatting,来提升全任务的重建质量,尤其是RGB图像渲染质量得到明显提升。

本文提出特征图Rasterizer,以及任务间的相关注意模块,能通过一种软加权机制传播任务特定知识,促进跨任务相关性学习,从而取得明显优越的性能。

在ScanNet和Replica数据集上的实验表明VersatileGaussian取得了明显优越的渲染质量和速度。

项目地址:https://shadowiterator.github.io/VersatileGaussian-Homepage/

图像编辑

UCSC的助理教授Xin Eric Wang则带领团队提出了一种图像个性化编辑SwapAnything框架。

基于此,你便可以看到肌肉发达的LeCun大牛拍着小猫咪;乌龟的龟壳,也可以是美国队长盔甲的印记。

正如作者所述,SwapAnything可在个性化可视化编辑中实现任意对象「交换」,包括单对象、部分对象、多对象、跨域、基于文本的「交换」等。

它有三个独特的优势:精准控制任意对象和部件,而不是主体;原封不动地保存上下文像素;个性化概念与形象的无缝改编。

ChatGPT中的DALL·E却无法利用参考概念,进行个性化视觉编辑。

在它支持的基于文本的编辑任务上,SwapAnything也能实现更稳健的性能。

图像合并

谷歌研究科学家、DreamBooth作者Nataniel Ruiz和团队提出的ZipLoRA算法,正式被录用。

在AI社区中,合并LoRA一直是一个热门话题,但调优过程可能非常繁琐。

谷歌和UIUC提出的ZipLoRA算法,可以让开发者轻松地将任何主体LoRA与任何风格LoRA结合起来。

这一方法的核心思想很简单:通过反向传播找到一个合并点,在这一点上两个LoRA都能很好地发挥作用,同时还能限制它们之间的信号干扰。

如下图所示,ZipLoRA保留了令人印象深刻的细节主题,非常逼真地再现了用户给出的风格。

与社区其他类似方法相较之下,比如direct arithmetic merge、StyleDrop+DreamBooth等,ZipLoRA更好地实现了主题保真度,以及风格指令遵循。

图像生成

英伟达高级研究科学家Ali Hatamizadeh刚刚宣布,团队提出的图像生成ViT算法DiffiT被ECCV 2024接收。

在这篇论文中,作者提出了扩散视觉Transformer(DiffiT)用于图像生成。

具体来说,它们提出了一种对去噪过程进行精细控制的方法,并引入了时间依赖多头自注意力(TMSA)机制。

DiffiT在生成高保真度图像方面显示出惊人的效果,同时有着更好的参数效率。

字体文本生成

微软高级研究科学家Yuhui Yuan发文称,FontStudio模型已被ECCV 2024录用。

正如模型名字所示,这是用于生成连贯一致字体效果的形状自适应扩散模型。

为了训出这个模型,研究人员精心策划了一个高质量形状自适应图像-文本数据集,并将分割掩码作为视觉输入条件,以引导不规则画布内图像生成的功能。

其次,为了保持多个字母之间的一致性,他们还提出了一种免训练的形状自适应效果转移方法,用于将纹理从生成的参考字母转移到其他字母。

实验结果显示,与无可匹敌的Adobe Firefly相比,用户在微软提出的FontStudio上的偏好更明显。

另外一篇微软联手清华北大、澳大利亚国立大学提出的文本编码器Glyph-ByT5也被录用。

为了实现准确的文本渲染,研究人员确定了对文本编码器的两个关键要求:字符识别和与字形对齐。

他们提出了一种将Glyph-ByT5与SDXL有效集成的方法,从而创建了用于设计图像生成的Glyph-SDXL模型。

这显著提高了文本渲染的准确性,在作者设计的图像基准测试中,模型准确率从不到20%提升到了近90%。

值得注意的是,Glyph-SDXL新获得了文本段落渲染的能力,可以为数十到数百个字符实现高拼写准确率,并且具有自动多行布局功能。

论文地址:https://arxiv.org/abs/2403.09622

你的论文被录用了吗?

最后借用网友一句勉励的话,「不论你的论文是否被ECCV录用,请记住你的价值和研究意义不仅仅局限于一个会议。每一次被拒都是走向成长的一步。继续前进,相信你的工作」!

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/838938.html
0
最新回复(0)