论文精选-底层视觉领域顶会顶刊论文-熵视

图像视频压缩

基于一维潜在表示的生成式视频压缩

作者：Zihan Zheng, Zhaoyang Jia, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Zhenghao Chen, Houqiang Li, Yan Lu

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

近年来，生成式视频编解码器（GVC）的最新进展通常将视频编码为二维隐式网格，并采用高容量生成式解码器进行重建。然而，该范式在充分利用时空冗余方面仍存在两大关键挑战：在空间上，二维隐式网格因其刚性结构不可避免地保留帧内冗余，相邻块之间仍具有高度相似性，进而需要更高的码率。在时间上，二维隐式网格难以以紧凑且语义连贯的方式对长期相关性进行建模，因为它阻碍了帧间公共内容的聚合。为解决这些局限，我们提出基于一维隐式表示的生成式视频压缩方法（GVC1D）。GVC1D将视频数据编码为极度紧凑的一维隐式令牌，同时基于短期和长期上下文进行条件建模。摆脱刚性的二维空间对应关系后，这些一维隐式令牌可自适应关注语义区域，并自然实现令牌精简，从而降低空间冗余。此外，所提出的一维记忆模块能够在保持低计算开销的同时，提供语义丰富的长期上下文，进一步降低时间冗余。实验结果表明，GVC1D取得了更优的压缩性能：在HEVC B类数据集上，基于LPIPS指标实现60.4%的码率降低，基于DISTS指标实现68.8%的码率降低，超越了现有视频压缩方法。网址：此网址

阅读原文

查看代码

图像超分辨率

UCAN: 用于轻量级超分辨率中扩展感受野的统一卷积注意力网络

作者：Cao Thien Tan, Phan Thi Thu Trang, Do Nghiem Duc, Ho Ngoc Anh, Hanyang Zhuang, Nguyen Duc Dung

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

混合CNN-Transformer架构在图像超分辨率任务中取得了优异的结果，但扩大注意力窗口或卷积核会显著增加计算成本，这限制了其在资源受限设备上的部署。我们提出了UCAN，这是一种轻量级网络，它将卷积和注意力机制相结合，以高效地扩大有效感受野。UCAN将基于窗口的空间注意力与刺猬注意力（Hedgehog Attention）机制相结合，以同时建模局部纹理和长距离依赖关系，并引入了一个基于蒸馏的大核模块，在不增加大量计算的情况下保留高频结构。此外，我们采用跨层参数共享来进一步降低复杂度。在Manga109（）上，UCAN-L仅用48.4G MACs就达到了31.63 dB的峰值信噪比（PSNR），超过了近期的轻量级模型。在BSDS100上，UCAN达到了27.79 dB，性能优于那些模型规模大得多的方法。大量实验表明，UCAN在精度、效率和可扩展性之间实现了出色的平衡，使其非常适合实际的高分辨率图像恢复任务。

阅读原文

查看代码

图像视频去雾

用于真实图像去雾的双层级图层定位LoRA

作者：Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-12_133814_834 (1).jpg

基于学习的真实图像去雾方法已取得显著进展，但在多样的真实雾霾场景中仍面临适应性挑战。这些挑战主要源于缺乏针对无标记数据的有效无监督机制，以及全模型微调成本高昂。为解决这些挑战，我们提出了雾到清晰文本导向损失函数，该函数利用CLIP的跨模态能力，将真实图像去雾重新表述为潜在空间中的语义对齐问题，从而在没有参考图像的情况下提供明确的无监督跨模态指导。此外，我们引入了双层定位LoRA（BiLaLoRA）策略，该策略既学习LoRA参数，又自动搜索注入层，实现对关键网络层的针对性适配。大量实验表明，在多个真实世界去雾基准测试中，我们的方法优于最先进的方法。代码公开于该https网址。

阅读原文

查看代码

图像超分辨率

基于扩散的图像超分辨率的解耦文本先验

作者：Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Disentangled Textual Priors for Diffusion-based Image Super-Resolution.jpg

图像超分辨率（SR）旨在从退化的低分辨率输入中重建高分辨率图像。尽管基于扩散的超分辨率方法具有强大的生成能力，但其性能在很大程度上取决于语义先验的构建方式以及如何将其整合到生成过程中。现有方法通常依赖于纠缠的或粗粒度的先验，这些先验将全局布局与局部细节混合在一起，或者将结构线索与纹理线索混为一谈，从而限制了语义可控性和可解释性。在这项研究中，我们提出了DTPSR，这是一种新颖的基于扩散的超分辨率框架，它沿两个互补维度引入解耦的文本先验：空间层次（全局与局部）和频率语义（低频与高频）。通过明确分离这些先验，DTPSR使模型能够在频率感知的语义引导下，同时捕捉场景级结构和特定对象的细节。相应的嵌入通过专门的交叉注意力模块注入，形成一个渐进式生成管道，该管道反映了视觉内容从全局布局到细粒度纹理的语义粒度。为了支持这一范式，我们构建了DisText-SR，这是一个大规模数据集，包含约95,000对图像-文本对，其中包含经过精心解耦的全局、低频和高频描述。为了进一步增强可控性和一致性，我们采用了多分支无分类器引导策略，并结合频率感知的负提示，以抑制幻觉和语义偏移。在合成和真实世界基准上的大量实验表明，DTPSR在各种退化场景中都能实现高感知质量、具有竞争力的保真度和强大的泛化能力。

阅读原文

查看代码

视频超分辨率

压缩域感知的在线视频超分辨率

作者：Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Compressed-Domain-Aware Online Video Super-Resolution.jpg

在带宽受限的在线视频流传输中，视频通常会进行下采样和压缩处理。尽管近年来的在线视频超分辨率（在线VSR）方法取得了不错的成果，但由于用于对齐的复杂运动估计以及对连续帧的冗余处理，这些方法仍计算密集，无法在更高分辨率下实现实时处理。为解决这些问题，我们提出了一种适用于在线VSR的压缩域感知网络（CDA-VSR），该网络利用压缩域信息（包括运动向量、残差图和帧类型）来平衡质量与效率。具体而言，我们提出了一个运动向量引导的可变形对齐模块，该模块使用运动向量进行粗对齐，并仅学习局部残差偏移以进行精细调整，从而在保持精度的同时减少计算量。然后，我们利用残差图门控融合模块从残差图中获取空间权重，抑制不匹配区域并突出可靠细节。此外，我们设计了一个帧类型感知重建模块，用于在不同帧类型间进行自适应计算分配，以平衡精度和效率。在REDS4数据集上，我们的CDA-VSR优于最先进的方法TMP，最大PSNR提升0.13分贝，同时推理速度提升一倍以上。

阅读原文

查看代码

图像超分辨率

迈向真实世界的红外图像超分辨率：一个统一的自回归框架与基准数据集

作者：Yang Zou, Jun Ma, Zhidong Jiao, Xingyuan Li, Zhiying Jiang, Jinyuan Liu

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

真实环境下的红外图像超分辨率（IISR）是一项具有实际意义但很少被研究的任务。开创性的研究通常在模拟数据集上进行训练和评估，或者忽略了红外成像与可见光成像之间的固有差异。然而，在实际应用中，真实的红外图像会受到光学和传感退化的耦合影响，这些退化共同降低了结构清晰度和热保真度。为了应对这些挑战，我们提出了Real-IISR，这是一个用于真实环境下IISR的统一自回归框架，它通过热结构引导的视觉自回归，以逐级缩放的方式逐步重建细粒度的热结构和清晰的背景。具体来说，热结构引导模块对热先验进行编码，以减轻热辐射与结构边缘之间的不匹配。由于非均匀退化通常会导致量化偏差，Real-IISR采用了条件自适应码本，该码本基于退化感知的热先验动态调制离散表示。此外，热顺序一致性损失强制温度和像素强度之间存在单调关系，确保相对亮度顺序而非绝对值，以在空间错位和热漂移情况下保持物理一致性。我们构建了FLIR-IISR，这是一个真实世界的IISR数据集，包含通过自动聚焦变化和运动模糊获取的成对低分辨率-高分辨率红外图像。大量实验证明了Real-IISR的良好性能，为真实环境下的IISR和基准测试提供了统一的基础。数据集和代码可在以下网址获取：this https URL。

阅读原文

查看代码

图像视频压缩

Parallax to Align Them All: 用于分布式多视图图像压缩的全视差注意力机制

作者：Haotian Zhang, Feiyue Long, Yixin Yu, Jian Xue, Haocheng Tang, Tongda Xu, Zhenning Shi, Yan Wang, Siwei Ma, Jiaqi Zhang

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

多视图图像压缩（MIC）旨在通过利用图像间的相关性来实现高压缩效率，在3D应用中发挥着关键作用。作为MIC的一个子领域，分布式多视图图像压缩（DMIC）在编码器端无需视图间信息的情况下，仍能提供与MIC相当的性能。然而，现有的DMIC方法通常对所有图像一视同仁，忽略了解码过程中不同视图之间不同程度的相关性，这导致了次优的编码性能。为了解决这一局限性，我们提出了一种新颖的（OPAM），它是一种用于明确建模任意信息源对之间相关性和对齐特征的通用机制。基于OPAM，我们提出了一种视差多信息融合模块（PMIFM），以自适应地整合来自不同源的信息。PMIFM被整合到联合解码器和熵模型中，构建了我们的端到端DMIC框架。大量实验表明，在保持较低计算开销的同时，显著超越了最先进的MIC编解码器。随着输入视图数量的增加，性能提升更为明显。与LDMIC相比，在WildTrack（3）上实现了的比特率节省，在WildTrack（6）上的比特率节省高达，同时显著提高了编码效率（解码方面高达，编码方面高达）。

阅读原文

图像视频去雨

UniRain: 基于检索增强生成（RAG）的数据集蒸馏与多目标重加权优化的统一图像去雨方法

作者：Qianfeng Yang, Qiyuan Guan, Xiang Chen, Jiyu Jin, Guiyue Jin, Jiangxin Dong

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

尽管在图像去雨方面已经取得了显著进展，但我们注意到，大多数现有方法往往仅针对特定类型的雨致退化情况而开发，无法在各种真实世界的雨天场景中实现泛化。如何在一个通用框架内有效建模不同的雨致退化情况，对于真实世界的图像去雨而言至关重要。在本文中，我们提出了UniRain，这是一个高效的统一图像去雨框架，能够对在白天和夜间条件下受雨线和雨滴影响而退化的图像进行恢复。为了更好地增强统一模型的泛化能力，我们构建了一个基于智能检索增强生成（RAG）的数据集约简管道，该管道从所有公开的去雨数据集中挑选高质量的训练样本，以用于更好的混合训练。此外，我们将一种简单却有效的多目标重加权优化策略融入非对称专家混合（MoE）架构中，以促进在不同场景下的性能一致性并提高稳健性。大量实验表明，我们的框架在我们提出的基准测试和多个公开数据集上，性能优于最先进的模型。

阅读原文

查看代码

图像超分辨率

FiDeSR: 高保真且保留细节的单步扩散超分辨率

作者：Aro Kim, Myeongjin Jang, Chaewon Moon, Youngjin Shin, Jinwoo Jeong, Sang-hyo Park

时间：2026

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

FiDeSR High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution.jpg

基于扩散的方法近年来在真实世界图像超分辨率（SR）领域取得了显著进展。然而，现有方法仍难以同时保留精细细节并确保高保真重建，往往导致视觉质量欠佳。在本文中，我们提出了FiDeSR，这是一个高保真且保留细节的单步扩散超分辨率框架。在训练过程中，我们引入了一种细节感知加权策略，能自适应地强调模型表现出较高预测误差的区域。在推理过程中，低频和高频自适应增强器进一步优化重建结果，且无需重新训练模型，从而实现灵活的增强控制。为进一步提高重建精度，FiDeSR融入了残差嵌套噪声细化模块，该模块可修正扩散噪声中的预测误差并增强精细细节的恢复。与现有基于扩散的方法相比，FiDeSR在真实世界超分辨率任务中表现更优，所生成的输出兼具高感知质量和忠实的内容还原。

阅读原文

查看代码