领域
分类
图像视频压缩

基于一维潜在表示的生成式视频压缩

作者:Zihan Zheng, Zhaoyang Jia, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Zhenghao Chen, Houqiang Li, Yan Lu

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-17_143822_973.jpg

近年来,生成式视频编解码器(GVC)的最新进展通常将视频编码为二维隐式网格,并采用高容量生成式解码器进行重建。然而,该范式在充分利用时空冗余方面仍存在两大关键挑战:在空间上,二维隐式网格因其刚性结构不可避免地保留帧内冗余,相邻块之间仍具有高度相似性,进而需要更高的码率。在时间上,二维隐式网格难以以紧凑且语义连贯的方式对长期相关性进行建模,因为它阻碍了帧间公共内容的聚合。为解决这些局限,我们提出基于一维隐式表示的生成式视频压缩方法(GVC1D)。GVC1D将视频数据编码为极度紧凑的一维隐式令牌,同时基于短期和长期上下文进行条件建模。摆脱刚性的二维空间对应关系后,这些一维隐式令牌可自适应关注语义区域,并自然实现令牌精简,从而降低空间冗余。此外,所提出的一维记忆模块能够在保持低计算开销的同时,提供语义丰富的长期上下文,进一步降低时间冗余。实验结果表明,GVC1D取得了更优的压缩性能:在HEVC B类数据集上,基于LPIPS指标实现60.4%的码率降低,基于DISTS指标实现68.8%的码率降低,超越了现有视频压缩方法。 网址:此网址

阅读原文
查看代码
图像超分辨率

基于扩散的图像超分辨率的解耦文本先验

作者:Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Disentangled Textual Priors for Diffusion-based Image Super-Resolution.jpg

图像超分辨率(SR)旨在从退化的低分辨率输入中重建高分辨率图像。尽管基于扩散的超分辨率方法具有强大的生成能力,但其性能在很大程度上取决于语义先验的构建方式以及如何将其整合到生成过程中。现有方法通常依赖于纠缠的或粗粒度的先验,这些先验将全局布局与局部细节混合在一起,或者将结构线索与纹理线索混为一谈,从而限制了语义可控性和可解释性。在这项研究中,我们提出了DTPSR,这是一种新颖的基于扩散的超分辨率框架,它沿两个互补维度引入解耦的文本先验:空间层次(全局与局部)和频率语义(低频与高频)。通过明确分离这些先验,DTPSR使模型能够在频率感知的语义引导下,同时捕捉场景级结构和特定对象的细节。相应的嵌入通过专门的交叉注意力模块注入,形成一个渐进式生成管道,该管道反映了视觉内容从全局布局到细粒度纹理的语义粒度。为了支持这一范式,我们构建了DisText-SR,这是一个大规模数据集,包含约95,000对图像-文本对,其中包含经过精心解耦的全局、低频和高频描述。为了进一步增强可控性和一致性,我们采用了多分支无分类器引导策略,并结合频率感知的负提示,以抑制幻觉和语义偏移。在合成和真实世界基准上的大量实验表明,DTPSR在各种退化场景中都能实现高感知质量、具有竞争力的保真度和强大的泛化能力。

阅读原文
查看代码
图像超分辨率

迈向真实世界的红外图像超分辨率:一个统一的自回归框架与基准数据集

作者:Yang Zou, Jun Ma, Zhidong Jiao, Xingyuan Li, Zhiying Jiang, Jinyuan Liu

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-06_133410_704.jpg

真实环境下的红外图像超分辨率(IISR)是一项具有实际意义但很少被研究的任务。开创性的研究通常在模拟数据集上进行训练和评估,或者忽略了红外成像与可见光成像之间的固有差异。然而,在实际应用中,真实的红外图像会受到光学和传感退化的耦合影响,这些退化共同降低了结构清晰度和热保真度。 为了应对这些挑战,我们提出了Real-IISR,这是一个用于真实环境下IISR的统一自回归框架,它通过热结构引导的视觉自回归,以逐级缩放的方式逐步重建细粒度的热结构和清晰的背景。具体来说,热结构引导模块对热先验进行编码,以减轻热辐射与结构边缘之间的不匹配。由于非均匀退化通常会导致量化偏差,Real-IISR采用了条件自适应码本,该码本基于退化感知的热先验动态调制离散表示。此外,热顺序一致性损失强制温度和像素强度之间存在单调关系,确保相对亮度顺序而非绝对值,以在空间错位和热漂移情况下保持物理一致性。 我们构建了FLIR-IISR,这是一个真实世界的IISR数据集,包含通过自动聚焦变化和运动模糊获取的成对低分辨率-高分辨率红外图像。大量实验证明了Real-IISR的良好性能,为真实环境下的IISR和基准测试提供了统一的基础。数据集和代码可在以下网址获取:this https URL。

阅读原文
查看代码
图像视频压缩

Parallax to Align Them All: 用于分布式多视图图像压缩的全视差注意力机制

作者:Haotian Zhang, Feiyue Long, Yixin Yu, Jian Xue, Haocheng Tang, Tongda Xu, Zhenning Shi, Yan Wang, Siwei Ma, Jiaqi Zhang

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-05_113651_148.jpg

多视图图像压缩(MIC)旨在通过利用图像间的相关性来实现高压缩效率,在3D应用中发挥着关键作用。作为MIC的一个子领域,分布式多视图图像压缩(DMIC)在编码器端无需视图间信息的情况下,仍能提供与MIC相当的性能。然而,现有的DMIC方法通常对所有图像一视同仁,忽略了解码过程中不同视图之间不同程度的相关性,这导致了次优的编码性能。为了解决这一局限性,我们提出了一种新颖的(OPAM),它是一种用于明确建模任意信息源对之间相关性和对齐特征的通用机制。基于OPAM,我们提出了一种视差多信息融合模块(PMIFM),以自适应地整合来自不同源的信息。PMIFM被整合到联合解码器和熵模型中,构建了我们的端到端DMIC框架。大量实验表明,在保持较低计算开销的同时,显著超越了最先进的MIC编解码器。随着输入视图数量的增加,性能提升更为明显。与LDMIC相比,在WildTrack(3)上实现了的比特率节省,在WildTrack(6)上的比特率节省高达,同时显著提高了编码效率(解码方面高达,编码方面高达)。

阅读原文
1 2 3 ... 213 跳转到