mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
8688 字
25 分钟
基于自注意力融合和自适应更新的多模态联邦学习算法

基于自注意力融合和自适应更新的多模态联邦学习算法#

4.1 引言#

研究背景与动机#

  • 物联网设备带来的数据多样性推动了多模态学习在 视听语音识别、图文检索、语义分析 等方向的发展。
  • 联邦学习的分布式训练与多模态数据的 独立性/分散性 高度契合。
  • 图 4-1 给出了多模态技术在联邦学习中的应用。

1758249411316

实践观察与问题提出#

  • 直觉:多模态应优于单模态。
  • 现实:为收敛需显著增加通信轮次,且准确性反而低于单模态。
  • 引出:亟需系统研究 模态偏移 (Non-IID) 对多模态联邦学习的影响。

核心挑战#

  1. 静态融合局限性
    • 多数方法对不同模态采用统一处理与融合。
    • 忽视模态差异 → 信息冗余与损失。
    • 需求:动态、适应性融合机制
  2. 模态偏移 Non-IID
    • 不同模态/客户端存在显著统计差异。
    • 简单全局优化会导致部分模态或客户端性能下降。
  3. 模态不完整性
    • 受设备限制、环境干扰、传感器故障等影响,数据常缺失。
    • 需求:数据恢复与缺失补全,提升鲁棒性。

本章主要贡献#

  1. FSM:基于自注意力的联邦多模态特征融合模块
    • 自适应融合多模态特征,动态生成前向路径。
    • 提升融合准确性与预测性能,增强泛化能力。
  2. FedMAC:多模态联邦学习自适应持续更新算法
    • 基于“当前全局 vs. 当前客户端”及“当前全局 vs. 历史全局”的梯度差进行更新。
    • 缓解模态偏移影响,提升模型稳定性。
  3. 基于 Stable Diffusion 的缺失模态补全
    • 以文本提示生成图像进行模态填充。
    • 采用分布式部署,仅传递文本表示与图像特征,避免原始数据传输。
    • 兼顾算力与隐私,提升缺失模态场景下的鲁棒性。

4.2 方法详述#

4.2.1 总体框架#

  • 本章提出的总体框架由三部分组成:
    1. FSM 模块(Federated Self-attention Multimodal Feature fusion)
      • 基于自注意力机制的多模态特征融合。
      • 用于改善多模态数据融合中的静态融合局限性。
    2. FedMAC 算法(Federated Learning Multimodal Adaptive Continual updating)
      • 通过全局与客户端模型的梯度差异进行自适应持续更新。
      • 缓解多模态场景下的 Non-IID 问题,提升整体稳定性。
    3. Stable Diffusion 模态补全
      • 针对图文多模态学习中 图像缺失率高 的问题。
      • 通过文本提示生成相关图像,用于模态补全。
      • 仅传递 特征表示 而非原始数据,以满足算力与隐私要求。
  • 研究目标
    • 同时应对 模态偏移(Non-IID)模态缺失 的挑战。
    • 提升多模态联邦学习在复杂场景下的 准确性与鲁棒性
    • 为多模态数据的高效流通与利用提供新方向。

1758250078719

图 4-2 总体架构说明

  • 客户端侧

    • 设备(如移动手机、个人电脑等)持有模态数据。
    • 通过 FSM 模块完成模态 1 与模态 2 的特征融合。
    • 上传模型更新(经过加密的数据)。
  • 服务端侧

    • 聚合来自多个客户端的上传模型。
    • 结合过去 R 轮的全局模型与当前客户端模型进行 FedMAC 更新
    • 实现持续学习与全局模型优化。
  • 模态补全过程

    • 当图像模态缺失时,文本输入经过 文本编码器Stable Diffusion 模型生成相关图像特征。
    • 与文本特征共同作为输入补全缺失模态,保证训练的完整性。
  • 公式要点

    • 全局模型在第 (t) 轮更新时,引入过去 R 轮信息,结合客户端上传的模型差异进行修正:

      wt+1=wtη1Mi=1M(Δwit)λ1Rr=1R(Δwtr)w^ {t+1} = w^t - \eta \cdot \frac{1}{M} \sum_{i=1}^{M} (\Delta w_i^t) - \lambda \cdot \frac{1}{R}\sum_{r=1}^{R} (\Delta w^{t-r})
    • 其中:

      • (Δwt\Delta w_t):当前轮客户端与全局模型的梯度差。
      • (Δwtr\Delta w_{t-r}):过去 R 轮的历史梯度差。
      • (η,λ\eta, \lambda):学习率与权衡系数。

4.2.2 基础模型#

背景#
  • 目标:在多模态特征提取中降低计算开销,避免从头训练。
  • 方法:采用预训练模型作为骨干网络,直接利用图像、文本和语音的深层表示。
  • 优势
    • 提升计算效率与可行性。
    • 适配联邦学习中的边缘设备计算与存储限制 [100]。
  • 策略:使用轻量化模型,满足快速计算、高效存储和便捷部署需求。

1758536642317

各模态特征提取方案(见图 4-3)#
  1. 图像数据
    • 模型:MobileNetV2 [176]
    • 参数规模:4.3M
    • 特点:轻量化、高效捕捉图像特征,适用于边缘设备的图像任务。
  2. 文本数据
    • 模型:MobileBERT [177]
    • 对比:原始 BERT [178] 需 340M 参数,MobileBERT 降至 25M
    • 特点:瓶颈结构设计,大幅降低计算与存储开销,适配计算受限环境。
  3. 语音数据
    • 方法:梅尔频率倒谱系数 (MFCC)
    • 应用:被广泛用于 Wav2Vec 2.0 [179] 等语音识别模型
    • 特点:在有限资源下高效提取语音特征,适合联邦分布式语音分析。

总结#
  • 本章在多模态联邦学习框架下,选择 MobileNetV2、MobileBERT、MFCC 等轻量化方法作为基础模型。
  • 该策略在保证表示能力的同时,显著降低了计算与存储成本,满足物联网与边缘计算环境对多模态数据处理的需求。

4.2.3 基于自注意力机制的联邦多模态特征融合模块#

背景#
  • 在多模态联邦学习框架中,特征融合网络性能对全局模型表现至关重要。
  • 各客户端基于相同的预训练模型提取模态特征,因此全局性能很大程度取决于融合模块的设计。
  • 本章提出 FSM(Federated Self-attention Multimodal feature fusion) 模块,以自注意力机制高效融合多模态特征表示。

FSM 结构(见图 4-4)#

1758537051571

FSM 包含两条传播路径:

  1. 注意力传播路径(路径 1)
    • 特征拼接 → 全连接层(FC1) → Tanh 池化 → 全连接层(FC2)。
    • 引入 LayerNorm提升数值稳定性与梯度传播效果。
    • 输出统一特征空间中的模态表示。
  2. 自注意力传播路径(路径 2)
    • 多头自注意力机制:输入特征经线性映射得到 查询 (Q)、键 (K)、值 (V)
    • 相似度计算:通过 QKTQK^T 获得注意力得分,并归一化为权重。
    • 加权计算:利用注意力权重对 VV 进行加权,生成全局融合特征。
    • 多头机制:每个头有独立的投影矩阵 WQi,WKi,WViW_Q^i, W_K^i, W_V^i,增强表示能力。

公式推导#
  • 投影计算(公式 4-1)

    Qi=XWiQ,Ki=XWiK,Vi=XWiV(4-1){\mathbf {Q}}_i = {\mathbf {XW}}_i^Q,\quad {\mathbf {K}}_i = {\mathbf {XW}}_i^K,\quad {\mathbf {V}}_i = {\mathbf {XW}}_i^V \tag{4-1}
    • 参数说明
      • X\mathbf{X}:输入特征矩阵
      • WiQ,WiK,WiV{\mathbf{W}}_i^Q, {\mathbf{W}}_i^K, {\mathbf{W}}_i^V:第 ii 个注意力头的投影矩阵
      • Qi,Ki,Vi\mathbf{Q}_i, \mathbf{K}_i, \mathbf{V}_i:分别为查询(Query)、键(Key)、值(Value)矩阵
  • 单头注意力(公式 4-2)

    headi=Attention(Qi,Ki,Vi)=softmax(QiKiTdk)Vi(4-2)\text{head}_i = \text{Attention}({\mathbf {Q}}_i, {\mathbf {K}}_i, {\mathbf {V}}_i) = \text{softmax}\left(\frac{{\mathbf {Q}}_i {\mathbf {K}}_i^T}{\sqrt{d_k}}\right){\mathbf {V}}_i \tag{4-2}
    • 参数说明
      • headi\text{head}_i:第 ii 个注意力头的输出
      • dkd_k:键向量的维度
      • softmax\text{softmax}:对注意力权重进行归一化处理
  • 多头拼接(公式 4-3)

    MultiHead(Q,K,V)=Concat(head1,,headh)WO(4-3)\text{MultiHead}({\mathbf {Q}},{\mathbf {K}},{\mathbf {V}}) = \text{Concat}(\text{head}_1,\dots,\text{head}_h){\mathbf {W}}^O \tag{4-3}
    • 参数说明
      • head1,,headh\text{head}_1,\dots,\text{head}_h:来自 hh 个注意力头的输出
      • Concat()\text{Concat}(\cdot):拼接操作,将多个注意力头的输出拼接在一起
      • WO\mathbf{W}^O:输出投影矩阵

特性与机制#
  • 融合策略:路径 1 与路径 2 输出结果融合后,与原始特征相加 → 生成最终特征表示。
  • Mask 操作:在模态缺失时屏蔽无效注意力分数,避免噪声干扰,增强鲁棒性。
  • 分类阶段:融合后的特征输入至 多层感知机 (MLP),执行分类任务。

优势#
  1. 动态适应性
    • 自注意力机制可根据输入特征重要性动态分配权重。
  2. 增强模态协同
    • 深度捕捉模态间的内在关联性与相对重要性。
  3. 鲁棒性强
    • Mask 机制保障缺失模态情况下的稳定性。
  4. 全局性能提升
    • 提高特征表达能力与泛化性能,优化联邦学习全局模型。

总结#

FSM 模块通过 多路径融合 + 自注意力机制 + Mask 策略,实现了 高效、鲁棒、动态的多模态特征融合,显著提升了联邦学习在复杂任务场景下的表现。

4.2.4 多模态联邦学习自适应持续更新算法#

背景#

  • 问题:传统的 FedAvg 在 Non-IID 多模态环境下,各客户端数据差异导致 更新方向不一致,从而影响全局模型的稳定性。
  • 解决方案:提出 FedMAC (Federated learning Multimodal Adaptive Continual updating) 算法。
    • 在服务端引入 参数差异分析机制自适应持续学习策略
    • 核心目标:缓解异构数据与低参与率带来的不稳定性,增强模型泛化能力。

核心思想#

  1. 服务端再训练
    • 不仅聚合参数,还分析客户端模型与全局模型的差异。
    • 大幅波动参数 → 施加约束,防止震荡。
    • 一致更新方向 → 保持不惩罚,保证正确优化。
  2. 持续学习机制
    • 引入 历史梯度均值 调整更新方向,平滑优化过程。
    • 弥补低客户端参与率下的差异过大问题。

1758541774912

算法流程(见图 4-5)#

  1. 初始化

    • 服务端初始化全局模型 w0w_0,并广播给客户端。
  2. 客户端本地训练

    • 每个客户端在本地数据上进行梯度下降,得到 witw_i^t 并上传。
  3. 服务端再训练

    • 计算客户端参数变化量:

      Δwit=witwt\Delta w_i^t = w_i^t - w^t
    • 分析变化方向,对波动过大的参数加以约束。

  4. 持续学习更新

    • 历史 RR 轮平均梯度差:

      1Rr=1RΔwtr(4-4)\frac{1}{R}\sum_{r=1}^R \Delta w^{t-r} \tag{4-4}
    • 服务端全局更新:

      wt+1=wtη1Mi=1M(Δwit)λ1Rr=1R(Δwtr)(4-5)w^{t+1} = w^t - \eta \cdot \frac{1}{M}\sum_{i=1}^M (\Delta w_i^t ) - \lambda \cdot \frac{1}{R}\sum_{r=1}^R (\Delta w^{t-r}) \tag{4-5}

      其中:

      • η\eta:学习率
      • λ\lambda:正则化强度超参数
      • MM:当前轮参与客户端数
      • RR:历史记录轮数

优势#

  • 稳定性提升:约束剧烈波动参数,避免全局模型震荡。
  • 持续学习:利用历史梯度信息,增强动态环境适应性。
  • 鲁棒性强:在 模态偏移 Non-IID 场景中有效缓解数据分布不均。
  • 通信效率高:减少因低参与率带来的模型差异,保证收敛稳定性。

总结#

FedMAC 融合 全局梯度再训练 + 持续学习机制,在多模态联邦学习中显著增强了模型对异构数据环境的 适应性与稳定性,为 Non-IID 场景下的高效优化提供了可行方案。

4.2.5 基于扩散模型的缺失图像模态补全算法#

问题背景#

  • 多模态数据中,模态缺失现象普遍存在,尤其在 图文数据集 中:
    • 采集条件限制、传输丢失等导致模态缺失。
    • 缺失图像模态会严重影响模型的训练和性能,甚至造成收敛困难。
  • 关键挑战:如何高效补全缺失模态,尤其是 图像模态

方法概述#

  • 本文提出:基于扩散模型的图像模态补全算法
  • 引入 Stable Diffusion [175] 条件生成模型:
    • 以文本为 Prompt,生成符合语义的高质量图像。
    • 用于补全缺失图像模态,提升训练效果与泛化能力。

Stable Diffusion 生成机制#

  1. 正向扩散 (Noising)

    • 在逐步加噪过程中,将数据映射为噪声分布:

      q(xtxt1)=N(xt;αtxt1,(1αt)I)(4-6)q(\mathbf {x}_t|\mathbf {x}_{t-1}) = \mathcal{N}(\mathbf {x}_t; \sqrt{\alpha_t} \mathbf {x}_{t-1}, (1-\alpha_t)\mathbf {I}) \tag{4-6}
    • 参数说明

      • xt\mathbf{x}_t:第 tt 步的潜在变量
      • xt1\mathbf{x}_{t-1}:第 t1t-1 步的潜在变量
      • αt\alpha_t:时间步长的缩放因子
      • I\mathbf{I}:单位矩阵
  2. 反向扩散 (Denoising)

    • 从噪声逐步恢复出清晰图像:

      pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))(4-7)p_\theta(\mathbf {x}_{t-1}|\mathbf {x}_t) = \mathcal{N}(\mathbf {x}_{t-1}; \mu_\theta(\mathbf {x}_t,t), \Sigma_\theta(\mathbf {x}_t,t)) \tag{4-7}
    • 参数说明

      • xt1\mathbf{x}_{t-1}:第 t1t-1 步的潜在变量
      • xt\mathbf{x}_t:第 tt 步的潜在变量
      • μθ(xt,t)\mu_\theta(\mathbf{x}_t,t):由模型参数 θ\theta 预测得到的均值
      • Σθ(xt,t)\Sigma_\theta(\mathbf{x}_t,t):由模型参数 θ\theta 预测得到的方差(协方差矩阵)
  3. 损失函数

    • 最小化预测噪声与真实噪声之间的差异:

      Ldiffusion=EX0,ϵN(0,I),t[ϵϵθ(Xt,t,c)22](4-8)\mathcal{L}_{diffusion} = \mathbb{E}_{\mathbf{X}_{0}, \epsilon \sim \mathcal{N}(0,I), t} \big[\|\epsilon - \epsilon_\theta(\mathbf{X}_t,t,c)\|_2^2\big] \tag{4-8}
    • 参数说明

      • X0\mathbf{X}_0:原始输入
      • ϵ\epsilon:高斯噪声,ϵN(0,I)\epsilon \sim \mathcal{N}(0,I)
      • ϵθ(Xt,t,c)\epsilon_\theta(\mathbf{X}_t,t,c):由模型预测的噪声
      • cc:文本模态嵌入的条件信息
      • tt:时间步
  4. 文本条件嵌入

    • 通过文本编码器获取条件输入:

      c=Encodertext(prompt)(4-9)c = Encoder_{text}(prompt) \tag{4-9}
    • 参数说明

      • cc:文本条件嵌入向量
      • EncodertextEncoder_{text}:预训练文本编码器
      • promptprompt:输入文本描述

1758541952718

模态补全流程(见图 4-6)#

  • 输入:文本描述 (Prompt)
  • 步骤:
    1. 文本编码器提取语义表示。
    2. Stable Diffusion 基于文本语义生成合成图像。
    3. 替换缺失或损坏的图像模态。
  • 输出:补全后的图像模态,保证语义一致性。

1758541970222

部署策略优化(见图 4-7)#

  • 客户端:部署计算轻量的文本编码器 (如 MobileBERT)。
  • 服务端:部署计算量大的图像解码器与特征提取器 (如 MobileNetV2)。
  • 流程:
    • 客户端仅上传加密后的文本表示。
    • 服务端基于文本生成图像 → 提取图像特征 → 返回给客户端。
  • 优势:
    • 避免原始数据传输,增强隐私保护。
    • 合理分配计算负荷,提升系统训练效率与稳定性。

优势总结#

  • 生成质量高:细节丰富,分辨率优于传统 GAN [180]。
  • 语义一致性:利用文本语义指导图像生成,确保视觉与语义对齐。
  • 隐私安全:客户端-服务端协同计算,避免原始数据暴露。
  • 鲁棒性增强:缓解模态缺失对模型训练的影响,提升整体性能。

4.3 实验设计及结果分析#

4.3.1 实验配置#

  • 硬件与软件环境 与第三章一致(详见 3.4.1 节)。

  • 实验数据集 本章在四个多模态数据集上进行系统验证:

    1758614901717

    数据集任务模态特征处理数据量
    UCI-HAR6 项日常活动加速计、陀螺仪Raw8,979
    CrisisMMD8 个人道主义类别图片、文本MobileNetV2, MobileBERT18,126
    UCF10151 个动作标签音频、视频MFCCs, MobileNetV26,837
    Oxford-IIIT Pet37 个宠物类别图片、文本MobileNetV2, MobileBERT7,349
  • 数据集说明

    1. UCI-HAR
      • 用于人类活动识别,包含 30 名志愿者 6 种日常活动的传感器数据。
      • 每个样本含 561 个特征(频域和时域处理)。
      • 加速度计与陀螺仪作为两个不同模态。
      • 为增强 Non-IID 属性,基于 狄利克雷分布 (β=0.1\beta=0.1​) 划分为 105 个客户端。
    2. CrisisMMD
      • 含 18,126 条推文(图像 + 文本),来源于 7 起重大自然灾害事件。
      • 用于灾害影响分析(如设施损毁、人员伤亡)。
      • 支持模态缺失实验。
    3. UCF101
      • 原始包含 101 类动作,本文仅保留含音频 + 视频的 51 类,共 6,837 个样本。
      • 视频:以 1Hz 抽帧。
      • 音频:采用 MFCC 特征。
    4. Oxford-IIIT Pet
      • 含 37 个类别,共 7,349 张图片。
      • 使用 GIT 模型[185]生成对应文本描述,构建图文数据集。
      • 用于模态缺失实验。
  • 数据划分策略

    • Non-IID 模拟:采用 狄利克雷分布 Dir(β=0.1)Dir(\beta=0.1) 进行模态偏移。
    • 特殊处理:UCI-HAR 原始为 IID(按参与者均匀划分),本文重新基于狄利克雷分布拆分为 105 个客户端。
  • 评价指标

    • UCF101:直接计算准确率。

    • UCI-HAR 与 CrisisMMD:使用 Macro F1,更适用于类别不平衡任务。

    • Macro F1 定义(公式 4-10)

      Macro F1=1Ci=1C(F1i)(4-10)\text{Macro F1} = \frac{1}{C} \sum_{i=1}^{C}( F1_i )\tag{4-10}
      • 参数说明
        • CC​:类别数
        • F1iF1_i:第 ii​ 个类别的 F1 分数
  • 对比算法 采用四种基准聚合方法:

    • FedAvg [36]
    • FedProx [60]
    • FedRS [186]
    • FedOpt [187]
  • 训练配置

    • 通信轮次:200
    • 批量大小:32
    • 优化器:Adam
    • 初始学习率:0.001
    • 学习率策略:余弦衰减
    • 权重衰减:0.05

4.3.2 实验结果分析#

  • 实验设置
    • 客户端划分:
      • UCI-HAR → 105 个客户端
      • CrisisMMD → 100 个客户端
      • UCF101 → 100 个客户端
    • 参与率:ρ=0.1\rho = 0.1(每轮仅 10% 客户端上传更新)
    • 融合策略对比:
      • 基线:Attention-based Fusion (FedMultimodal [30])
      • 本文:FSM (Federated Self-attention Multimodal feature fusion)
    • FedMAC 参数:
      • UCF101、UCI-HAR → R=1R = 1​
      • CrisisMMD → R=3R = 3​

  • 实验结果(表 4-2)

![1758615696743](笔记图片/4第四章 基于自注意力融合和自适应更新的多模态联邦学习算法.assets/1758615696743.png)

特征融合聚合方法UCF101 Acc (%)UCI-HAR F1 (%)CrisisMMD F1 (%)
AttentionFedAvg40.9076.3010.43
FedProx38.4674.868.61
FedRS32.8674.608.01
FedOpt63.8479.3826.36
FedMAC65.3181.6529.47
FSMFedAvg49.0777.0919.36
FedProx48.4677.8423.70
FedRS40.6977.7517.39
FedOpt67.2981.3128.39
FedMAC71.1483.7134.05

  • 结果分析

    1. FSM 融合优势

      • 通过自注意力机制动态分配模态权重,有效提升特征融合能力。
      • UCF101 上:
        • FedProx + FSM 从 38.46% → 48.46%,提升 10.00%
      • UCI-HAR 上:
        • FedRS + FSM 从 68.65% → 77.75%,提升 9.10%
      • CrisisMMD 上:
        • FedProx + FSM 从 8.61% → 23.70%,提升 15.09%
      • 即便结合 FedOpt、FedMAC 等强基线,FSM 仍进一步提升性能。
    2. FedMAC 优势

      • 在异质性强、任务复杂的 UCF101 与 CrisisMMD 上表现尤为突出。
      • 例如:UCF101 (FSM 融合) 下,FedRS → FedMAC 提升 32.45%
      • 通过梯度约束与持续学习,缓解客户端更新不一致问题,增强全局鲁棒性。
    3. 可视化结果(图 4-8)

      1758616108855

      • 横轴:训练轮次
      • 纵轴:测试集指标
      • 结果显示:FedMAC 始终优于其他方法,尤其在 CrisisMMD 上表现更稳定。

  • 结论
    • FSM 能显著提升多模态特征融合能力,增强模型泛化性。
    • FedMAC 在 Non-IID 场景下的稳定性优于其他聚合算法。
    • FSM + FedMAC 的结合,在灾害评估、动作识别和人体活动识别等多模态 IoT 应用中展现出最优表现。

4.3.3 消融实验#

4.3.3.1 模块消融实验#

  • 实验目的:将 FedMAC 解构为 客户端梯度差异模块持续学习模块,结合 FSM 模块,探究各组件对模型性能的独立贡献。
  • 实验条件:客户端数量与参与率不变,ρ = 0.1。
  • 结果(表 4-3)

1758616840260

数据集FSM Fusion客户端梯度差异持续学习评价指标(%)
UCF101×××40.90
××49.07
×67.29
71.14
UCI-HAR×××76.30
××77.09
×79.62
83.71
CrisisMMD×××10.43
××19.36
×29.36
32.63
  • 分析
    • FSM 模块:通过自注意力优化特征融合,在复杂多模态任务中性能显著提升(如 CrisisMMD +8.93%)。
    • 客户端梯度差异模块:增强全局模型更新方向感知,使模型更好适应异质性。
    • 持续学习模块:在跨时间步保持一致性,缓解客户端数据偏差,提升长期稳定性(如 UCI-HAR +4.09%)。
    • 综合效果:启用全部模块性能最佳,验证了三者在多模态联邦学习中的协同作用。

4.3.3.2 持续更新参数 R 消融实验#

  • 实验目的:探索公式 (4-5) 中 FedMAC 的历史更新轮次参数 (R) 对性能和计算开销的影响。
wt+1=wtη1Mi=1M(Δwit)λ1Rr=1R(Δwtr)(4-5)w^{t+1} = w^t - \eta \cdot \frac{1}{M}\sum_{i=1}^M (\Delta w_i^t ) - \lambda \cdot \frac{1}{R}\sum_{r=1}^R (\Delta w^{t-r}) \tag{4-5}
  • 实验条件
    • 数据集:UCF101、UCI-HAR、CrisisMMD
    • 参数:R{1,2,3,4,5}R \in \{1,2,3,4,5\}
    • 指标:准确率(%)、训练时间(秒)、最大 GPU 内存(MB)
  • 结果(表 4-4)

1758617070092

数据集R指标(%)训练时间(秒)GPU 内存(MB)
UCF101171.14372.21596
271.35393.61608
371.94394.01618
470.06405.21622
568.88416.41626
UCI-HAR183.71396.01522
283.23402.01524
384.36405.81526
482.81408.21528
582.20427.41530
CrisisMMD132.63558.61382
232.58563.01386
334.05565.41388
432.20603.81396
531.98614.21398

1758617212717

  • 分析
    • 最佳性能:R=3 时准确率最高(如 CrisisMMD:32.63% → 34.05%)。
    • 计算成本:R 增大 → 训练时间和显存占用上升。
    • 稳定性与效率权衡
      • 小 R(如 R=1):收敛快,但波动大。
      • 大 R(如 R=4,5):更稳定,但性能下降、计算负担重。
      • R=3 是性能与成本的最佳平衡点,尤其适合 CrisisMMD 等复杂数据集。

4.3.4 稳定性实验#

考察 FSM 特征融合与 FedMAC 聚合在不同客户端参与率客户端数量、以及狄利克雷划分条件下的稳定性与鲁棒性。其余训练配置同前文一致。

4.3.4.1 客户端参与率稳定性实验#

实验设置:

  • 客户端参与率 ρ{0.3,0.5,0.7,1.0}\rho \in \{0.3,0.5,0.7,1.0\}
  • 对比 两种特征融合方式(Attention 与 FSM)和 五种聚合方法(FedAvg、FedProx、FedRS、FedOpt、FedMAC)。
  • 数据集:UCF101、UCI-HAR、CrisisMMD。
  • 评估指标:UCF101 使用 准确率 (Accuracy),UCI-HAR 与 CrisisMMD 使用 F1 分数

实验结果#

1758627157383

表 4-5 UCF101 数据集在不同客户端参与率下的准确率 (%) 表现

特征融合方式聚合方法ρ=0.3ρ=0.5ρ=0.7ρ=1.0
AttentionFedAvg61.2364.4766.8867.99
FedProx60.9264.4266.5665.25
FedRS59.0361.5560.8164.40
FedOpt69.4070.7070.8370.85
FedMAC71.2771.8471.2772.05
FSMFedAvg61.9665.7467.8068.30
FedProx67.9365.4868.5268.78
FedRS61.3263.1363.4564.72
FedOpt70.7071.5371.2771.31
FedMAC71.7971.9972.6872.10

1758627175875

表 4-6 UCI-HAR 数据集在不同客户端参与率下的 F1 (%) 表现

特征融合方式聚合方法ρ=0.3ρ=0.5ρ=0.7ρ=1.0
AttentionFedAvg75.9977.4278.5678.11
FedProx77.0377.3477.2977.76
FedRS72.8670.3773.1772.01
FedOpt79.3881.0380.8480.86
FedMAC82.3582.6482.0582.75
FSMFedAvg80.4279.7179.9179.56
FedProx80.3279.4979.4379.33
FedRS75.5775.2476.0475.14
FedOpt81.2284.0783.7681.86
FedMAC83.1186.8286.8085.74

1758627195597

表 4-7 CrisisMMD 数据集在不同客户端参与率下的 F1 (%) 表现

特征融合方式聚合方法ρ=0.3ρ=0.5ρ=0.7ρ=1.0
AttentionFedAvg12.2312.9510.1410.01
FedProx16.6415.5716.6111.96
FedRS8.2710.529.3612.16
FedOpt30.0330.1430.3630.46
FedMAC30.9931.8831.6131.74
FSMFedAvg27.6429.7024.6228.98
FedProx28.1730.1926.3729.36
FedRS29.9730.8725.7626.80
FedOpt30.6931.2431.4730.70
FedMAC34.2132.5832.2132.00

结论分析#
  • UCF101 数据集:准确率随参与率 ρ\rho 增加呈稳定上升趋势。FSM + FedMAC 组合达到最佳表现,说明 FSM 对视频数据复杂特征关系的建模更优。
  • UCI-HAR 数据集:以 F1 分数为准,FSM 融合表现优于 Attention,特别是与 FedMAC 结合时性能最佳,显示其对时序数据的鲁棒性。
  • CrisisMMD 数据集:FSM + FedMAC 在所有参与率下均优于其它组合,尤其在高参与率下保持优势,证明其在处理强异构多模态数据时的稳定性和泛化能力。

综合结论

  • FSM 融合方法整体优于 Attention,特别适用于异构性强或任务复杂度高的多模态场景(如 CrisisMMD)。
  • FedMAC 在大多数情况下取得最优结果,在高参与率 (ρ=1.0\rho=1.0) 时优势更明显,表明其在大型联邦系统中的可扩展性与稳定性。
  • 部分算法(如 FedAvg、FedProx)在 CrisisMMD 高参与率下性能反而下降,说明其对模态偏移数据的聚合能力较弱。

4.3.4.2 客户端数量稳定性实验#

实验设置:

  • 数据集:UCF101、CrisisMMD。
  • 数据划分:狄利克雷分布参数设为 β=0.1\beta=0.1,划分为 N=10N=10N=50N=50 个客户端,以模拟更高异构性情境下的数据分布特征。
  • 参与率:ρ=0.3\rho=0.3
  • 通信轮次:200。
  • 数据分布可视化结果见 图 4-10(客户端数据样本类别分布)。

1758627660577

  • 实验结果见 表 4-8

实验结果#

1758627672358

表 4-8 改变客户端数量稳定性实验

特征融合方式聚合方法UCF101 Acc (%) N=10UCF101 Acc (%) N=50CrisisMMD F1 (%) N=10CrisisMMD F1 (%) N=50
AttentionFedAvg66.6753.4511.0015.59
FedProx68.3554.4815.5518.22
FedRS69.1459.9211.5019.13
FedOpt66.7766.9816.8720.94
FedMAC70.9469.0721.6129.12
FSMFedAvg68.8156.8315.9817.74
FedProx69.8658.7717.0823.57
FedRS70.0958.7115.7316.50
FedOpt68.0368.1817.6127.37
FedMAC71.1970.3223.3230.78

结论分析#
  • FSM + FedMAC 表现最优: 在 UCF101 与 CrisisMMD 两个数据集上,不论客户端数量为 10 还是 50,FSM 与 FedMAC 的组合均保持了较高的稳定性和适应性。
  • 客户端数量增加对性能的影响有限
    • UCF101:准确率未显著下降。
    • CrisisMMD:F1 得分随客户端数量增加甚至有所提升,说明 FedMAC 聚合策略能有效应对因客户端数量增加而带来的数据异构性挑战。
  • Attention 融合方法对客户端数量敏感: FedAvg 和 FedRS 在客户端数量增加时性能波动较大,表明它们难以在大量客户端场景下有效处理模态偏移 Non-IID 数据,表现出不稳定性。
  • 综合结论
    • FSM 特征融合方式结合 FedMAC 聚合策略在不同客户端数量条件下展现出 最佳性能与最小波动性
    • 该组合在应对 多客户端、多模态任务 时具有较强的适应性和稳定性,为大规模联邦学习提供了可靠支持。

4.3.4.3 不同模态偏移程度稳定性实验#

实验设置:

  • 通过调节狄利克雷分布参数 β\beta 控制客户端数据分布的异质性。
  • 参数范围:β{0.1,0.3,0.5,0.7,1.0}\beta \in \{0.1,0.3,0.5,0.7,1.0\}
  • β\beta 较小时:数据分布高度不均衡,表现出强烈的 Non-IID 特性。
  • β\beta 较大时:数据分布更趋均衡,客户端差异减小,接近 IID。
  • 实验结果列于 表 4-9表 4-11

实验结果#

1758627720997

表 4-9 UCF101 数据集在不同分布下的准确率 (%) 表现

特征融合方式聚合方法β=0.1β=0.3β=0.5β=0.7β=1.0
AttentionFedAvg40.9049.5026.9526.2317.39
FedProx38.4646.8926.0124.3817.27
FedRS32.8644.7427.8928.6519.00
FedOpt63.8468.6764.0967.6167.03
FedMAC65.3169.4667.9769.9668.76
FSMFedAvg49.0756.6756.7553.8153.06
FedProx48.4658.0356.8653.1454.54
FedRS40.6951.4454.1150.4653.09
FedOpt67.2969.3968.9868.4569.34
FedMAC71.1470.5970.3270.5671.11

1758627733714

表 4-10 UCI-HAR 数据集在不同分布下的 F1 (%) 表现

特征融合方式聚合方法β=0.1β=0.3β=0.5β=0.7β=1.0
AttentionFedAvg76.3076.8978.0878.8278.53
FedProx74.8678.5877.9878.4478.27
FedRS74.6074.2778.3278.1677.90
FedOpt79.3880.4780.7780.3178.36
FedMAC81.6581.9481.5481.2881.04
FSMFedAvg77.0979.0478.4978.9779.43
FedProx77.8477.7878.2378.8978.81
FedRS77.7576.2279.9778.6179.41
FedOpt81.3179.9081.6881.4280.44
FedMAC83.7182.2782.0082.1982.28

1758627755494

表 4-11 CrisisMMD 数据集在不同分布下的 F1 (%) 表现

特征融合方式聚合方法β=0.1β=0.3β=0.5β=0.7β=1.0
AttentionFedAvg10.4323.5330.9334.2136.16
FedProx8.6122.7831.2134.0536.62
FedRS8.0120.9130.4535.8536.97
FedOpt26.3631.4132.2836.7437.57
FedMAC29.4732.7534.8338.2138.48
FSMFedAvg19.3625.1931.4335.6337.41
FedProx23.7024.2732.5636.6237.44
FedRS17.3925.6330.5437.8638.02
FedOpt28.3932.0633.5238.4338.45
FedMAC32.6333.6635.4538.8240.74

结论分析#
  • UCF101 数据集
    • FedAvg、FedProx、FedRS 在低 β\beta(高异质性)时表现较好,但随着 β\beta 增大趋向 IID,性能反而下降。
    • 这是因为在接近 IID 分布时可能出现 神经崩溃 (Neural Collapse) [188] 现象,分类器原型向量和类向量收敛到 单纯形等角紧框架 (ETF) [189] 结构。
    • 在 Attention 融合下,这种现象更为明显,导致性能显著下降。
  • FSM 融合策略: 有效缓解了神经崩溃问题,在趋近 IID 分布时依然保持稳定性。
  • FedOpt 与 FedMAC: 在不同 β\beta 值下展现出显著的鲁棒性,在高度异质性与接近 IID 的条件下均能保持高性能。特别是 FedMAC 在所有 β\beta 设置下表现最优,说明其能有效应对复杂数据异质性挑战。
  • UCI-HAR 与 CrisisMMD 数据集: 未出现神经崩溃现象。FedMAC 在两个数据集上的 F1 分数均明显优于其他方法,并且在结合 FSM 融合后达到了最优结果。

综合结论

  • 在多模态联邦学习中,数据分布趋近 IID 时并不总能带来性能提升,可能因神经崩溃导致性能下降。
  • FSM + FedMAC 组合在不同 β\beta 条件下均展现最佳稳定性和适应性,是应对模态偏移 Non-IID 挑战的有效方案。

4.3.5 图片模态补全实验#

多模态学习的核心挑战之一是缺失模态。本节针对图文数据集在不同图片模态缺失率下进行基准测试,评估缺失处理策略在多模态联邦学习中的有效性。

实验设置#

  • 缺失率q{0.1,0.2,0.3,0.4,0.5}q \in \{0.1,0.2,0.3,0.4,0.5\}​
  • 融合方法:采用 FSM(见 §4.2.3);其 Mask 结构支持在存在缺失数据时通过掩蔽继续训练。
  • 处理方式对比
    1. 零填充(Zero Padding) [182]:对缺失位置填 0,并在注意力计算中屏蔽相应数据点(方式 1)。
    2. 基于扩散模型的缺失图像模态补全算法(方式 2):利用生成式模型推测并补全缺失图像。
  • Stable Diffusion 配置(用于方式 2):
    • 采样器(Sampler):DPM++ 2M
    • 调度类型(Schedule type):Automatic
    • 采样步骤(Sampling steps):20
    • 生成尺寸:512×512512 \times 512
    • 将缺失图片对应的文本内容作为 Prompt 输入
  • 示例可视化:CrisisMMD 生成案例见 表 4-12(“Prompt / 原图 / 生成图像”三列示意)。

1758633526879

  • 性能展示:趋势图见 图 4-11(不同处理方法的下降率)。

1758633546232


CrisisMMD:不同缺失率下的 F1(%)#

表 4-13 模态缺失下不同处理方法的 F1(%)表现

1758633538290

缺失数据填充方式聚合方法q=0.1q=0.2q=0.3q=0.4q=0.5
零填充FedAvg15.5315.4312.9910.779.15
FedProx12.6111.3510.4110.039.82
FedRS13.2813.3011.0510.779.00
FedOpt26.9924.6021.3620.8118.10
FedMAC31.0729.9227.9926.0023.26
基于扩散模型的缺失图像模态补全算法FedAvg12.9413.2014.2514.5114.90
FedProx12.9312.3814.0113.9215.13
FedRS9.7310.1113.2415.2216.23
FedOpt16.9417.2423.1525.7127.04
FedMAC21.6023.5729.3630.4931.16

观察

  • 零填充在所有方法中随缺失率升高明显下降,说明其应对高缺失率较弱。
  • 扩散模型补全在低缺失率(q0.3q \le 0.3)时整体不如零填充,但在高缺失率(q0.4q \ge 0.4)时显著优于零填充;其中 FedMAC 受益最明显。

Oxford-IIIT Pet:生成文本 + 扩散补全#

  • 该数据集缺少文本提示,使用 GIT 模型 [185] 为每幅图像生成与类别一致的文本描述,构建图文对(示意见 表 4-14:“Prompt / 原图 / 生成图像”)。

1758633571546

  • 训练/测试划分:8:2;以狄利克雷分布(β=0.1\beta=0.1)将训练集划分为 100 个客户端,客户端参与率 0.1,共 100 轮
  • 为降低文本模态对融合的干扰,在 MobileBERT 提取的文本特征上以 0.1 概率添加噪声,引导网络关注缺失图像模态影响。

表 4-15 模态缺失下不同处理方法的 F1(%)表现

1758633581806

缺失数据填充方式聚合方法q=0.1q=0.2q=0.3q=0.4q=0.5
零填充FedAvg99.2996.5196.1994.9793.35
FedProx98.1296.4395.3794.1693.82
FedRS98.2796.7495.6693.5693.08
FedOpt99.4098.5296.4395.9995.13
FedMAC99.6298.8596.8996.2996.04
基于扩散模型的缺失图像模态补全算法FedAvg99.5699.2099.4099.5299.56
FedProx99.3299.4699.5999.4399.52
FedRS99.2399.2499.2999.2299.27
FedOpt99.8399.8499.7599.4599.56
FedMAC99.9499.8699.8699.9499.94

观察

  • 在所有设定下,方式 2(扩散补全)均优于方式 1(零填充),呈现一致且显著的性能提升,表明生成图像具备良好泛化性并能在不同聚合方法中稳定增益。

结论#

  • 零填充:实现简单,但在高缺失率场景下性能下降显著。
  • 扩散模型补全
    • 高缺失率 时优势明显,显著提升稳定性与性能;
    • 在 CrisisMMD 与 Oxford-IIIT Pet 上均验证了有效性;
    • FedMAC 结合效果最优。
  • 总体而言,基于 Stable Diffusion 的缺失图像模态补全算法是应对模态缺失 + 模态偏移 Non-IID 环境的有效策略,可显著增强多模态联邦学习的稳健性与适应性。

4.4 本章小结#

本章围绕多模态联邦学习环境下的完全多模态偏移问题展开研究。面对不同客户端在数据模态与分布上的显著差异所带来的挑战(训练稳定性差、模型融合能力不足、以及模态缺失),本章提出并验证了如下方案:

  • 方法方面
    • 提出基于自注意力机制的联邦多模态特征融合模块,以提升多模态数据融合的准确性。
    • 提出多模态联邦学习自适应持续更新算法,增强模型在异构场景下的稳定性。
    • 引入 Stable Diffusion,提出基于扩散模型的图像模态补全算法:利用文本提示生成缺失的图像模态数据,以缓解模态缺失并提高不完整模态场景下的适应能力。
  • 实验结论
    • 所提出方法有效缓解因模态偏移导致的训练不稳定问题。
    • 显著提升了多模态数据融合能力与模型的持续学习能力
分享

如果这篇文章对你有帮助,欢迎分享给更多人!

基于自注意力融合和自适应更新的多模态联邦学习算法
https://castorice.xin/posts/基于自注意力融合和自适应更新的多模态联邦学习算法/
作者
Mizuki
发布于
2025-09-30
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时