Computer Science > Computer Vision and Pattern Recognition

arXiv:2305.11443 (cs)

[Submitted on 19 May 2023 (v1), last revised 15 Apr 2024 (this version, v2)]

Title:Equivariant Multi-Modality Image Fusion

Authors:Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Kai Zhang, Shuang Xu, Dongdong Chen, Radu Timofte, Luc Van Gool

View PDF HTML (experimental)

Abstract:Multi-modality image fusion is a technique that combines information from different sensors or modalities, enabling the fused image to retain complementary features from each modality, such as functional highlights and texture details. However, effective training of such fusion models is challenging due to the scarcity of ground truth fusion data. To tackle this issue, we propose the Equivariant Multi-Modality imAge fusion (EMMA) paradigm for end-to-end self-supervised learning. Our approach is rooted in the prior knowledge that natural imaging responses are equivariant to certain transformations. Consequently, we introduce a novel training paradigm that encompasses a fusion module, a pseudo-sensing module, and an equivariant fusion module. These components enable the net training to follow the principles of the natural sensing-imaging process while satisfying the equivariant imaging prior. Extensive experiments confirm that EMMA yields high-quality fusion results for infrared-visible and medical images, concurrently facilitating downstream multi-modal segmentation and detection tasks. The code is available at this https URL.

Comments:	Accepted by CVPR 2024
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2305.11443 [cs.CV]
	(or arXiv:2305.11443v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2305.11443

Submission history

From: Zixiang Zhao [view email]
[v1] Fri, 19 May 2023 05:50:24 UTC (10,366 KB)
[v2] Mon, 15 Apr 2024 18:11:29 UTC (11,520 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Equivariant Multi-Modality Image Fusion

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Equivariant Multi-Modality Image Fusion

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators