近日,机器智能研究院关于大模型无源迁移的最新研究成果被计算机视觉最高水平顶会CVPR 2024录用。
当前,信息安全成为越来越多AI应用的刚性需求,2021年以来,无源领域自适应逐渐成为迁移学习研究的前沿热点之一。近两年,多模态基础模型的迅猛发展为该问题提供了新的解题思路,但是,如何在欠信息条件下利用这些异构的通用知识来实现无源跨域迁移仍然是一个挑战。
针对上述问题,本研究首次探索了现成视觉语言多模态模型(具有丰富异构知识)的辅助迁移潜力。研究发现以零样本方式直接将基础模型应用于目标域并不令人满意,因其并非专门用于特定任务;以此为切入点,研究提出了一种迁移多模态基础模型所蕴含通用知识的新方法--DIFO。DIFO的迁移过程由两个交替步骤构成:(1)通过提示学习最大化与目标模型的互信息来实现多模态基础模型定制化;(2)将这个定制好的多模态知识提炼到目标模型。为了更细粒度和更可靠的知识迁移,DIFO进一步引入了两个有效的正则化项,即最可能类别约束和预测一致性。在四个挑战性数据集进行的实验表明 DIFO的性能明显优于现有方法。
(A) DIFO基本思想示意图 (B)DIFO模型框架示意图
图1. 基于多模态基础模型的无源无监督领域自适应方法概览
上述研究以“Source-Free Domain Adaptation with Frozen Multimodal Foundation Model”为题的论文被CVPR 2024录用,机器智能研究院唐宋副教授为第一作者,研究生苏汶芯为第二作者。
论文链接:https://arxiv.org/abs/2311.16510v3
CVPR(全称IEEE/CVF Conference on Computer Vision and Pattern Recognition)是人工智能与计算机视觉领域顶级国际学术会议(CCF A类会议)。会议每年举行一次,汇集了来自世界各地的研究人员、学者、行业专家和学生,接收的论文经过严格的同行评审,代表了计算机视觉领域的最高研究水平。据最新谷歌学术指标统计,CVPR位列总榜第4,前三名分别为Nature、NEJM和Science,在计算机学科排名第1,h5-index为422 (过去5年内至少有422篇论文被引用超过422次)。CVPR 2024 将在2024年6月17日至21日在美国西雅图的西雅图会议中心举行。