8688 字

25 分钟

基于自注意力融合和自适应更新的多模态联邦学习算法

2025-09-30

论文笔记

联邦学习

/

多模态

/

自注意力机制

/

Stable Diffusion

/

持续学习

/

Non-IID

基于自注意力融合和自适应更新的多模态联邦学习算法#

4.1 引言#

研究背景与动机#

物联网设备带来的数据多样性推动了多模态学习在 视听语音识别、图文检索、语义分析 等方向的发展。
联邦学习的分布式训练与多模态数据的 独立性/分散性 高度契合。
图 4-1 给出了多模态技术在联邦学习中的应用。

1758249411316

实践观察与问题提出#

直觉：多模态应优于单模态。
现实：为收敛需显著增加通信轮次，且准确性反而低于单模态。
引出：亟需系统研究 模态偏移 (Non-IID) 对多模态联邦学习的影响。

核心挑战#

静态融合局限性
- 多数方法对不同模态采用统一处理与融合。
- 忽视模态差异 → 信息冗余与损失。
- 需求：动态、适应性融合机制。
模态偏移 Non-IID
- 不同模态/客户端存在显著统计差异。
- 简单全局优化会导致部分模态或客户端性能下降。
模态不完整性
- 受设备限制、环境干扰、传感器故障等影响，数据常缺失。
- 需求：数据恢复与缺失补全，提升鲁棒性。

本章主要贡献#

FSM：基于自注意力的联邦多模态特征融合模块
- 自适应融合多模态特征，动态生成前向路径。
- 提升融合准确性与预测性能，增强泛化能力。
FedMAC：多模态联邦学习自适应持续更新算法
- 基于“当前全局 vs. 当前客户端”及“当前全局 vs. 历史全局”的梯度差进行更新。
- 缓解模态偏移影响，提升模型稳定性。
基于 Stable Diffusion 的缺失模态补全
- 以文本提示生成图像进行模态填充。
- 采用分布式部署，仅传递文本表示与图像特征，避免原始数据传输。
- 兼顾算力与隐私，提升缺失模态场景下的鲁棒性。

4.2 方法详述#

4.2.1 总体框架#

本章提出的总体框架由三部分组成：
1. FSM 模块（Federated Self-attention Multimodal Feature fusion）
  - 基于自注意力机制的多模态特征融合。
  - 用于改善多模态数据融合中的静态融合局限性。
2. FedMAC 算法（Federated Learning Multimodal Adaptive Continual updating）
  - 通过全局与客户端模型的梯度差异进行自适应持续更新。
  - 缓解多模态场景下的 Non-IID 问题，提升整体稳定性。
3. Stable Diffusion 模态补全
  - 针对图文多模态学习中 图像缺失率高 的问题。
  - 通过文本提示生成相关图像，用于模态补全。
  - 仅传递 特征表示 而非原始数据，以满足算力与隐私要求。
研究目标
- 同时应对 模态偏移（Non-IID） 与 模态缺失 的挑战。
- 提升多模态联邦学习在复杂场景下的 准确性与鲁棒性。
- 为多模态数据的高效流通与利用提供新方向。

1758250078719

图 4-2 总体架构说明

客户端侧：
- 设备（如移动手机、个人电脑等）持有模态数据。
- 通过 FSM 模块完成模态 1 与模态 2 的特征融合。
- 上传模型更新（经过加密的数据）。
服务端侧：
- 聚合来自多个客户端的上传模型。
- 结合过去 R 轮的全局模型与当前客户端模型进行 FedMAC 更新。
- 实现持续学习与全局模型优化。
模态补全过程：
- 当图像模态缺失时，文本输入经过 文本编码器 与 Stable Diffusion 模型生成相关图像特征。
- 与文本特征共同作为输入补全缺失模态，保证训练的完整性。
公式要点：
- 全局模型在第 (t) 轮更新时，引入过去 R 轮信息，结合客户端上传的模型差异进行修正：
  $w^ {t+1} = w^t - \eta \cdot \frac{1}{M} \sum_{i=1}^{M} (\Delta w_i^t) - \lambda \cdot \frac{1}{R}\sum_{r=1}^{R} (\Delta w^{t-r})$
- 其中：
  - ( $\Delta w_t$ )：当前轮客户端与全局模型的梯度差。
  - ( $\Delta w_{t-r}$ )：过去 R 轮的历史梯度差。
  - ( $\eta, \lambda$ )：学习率与权衡系数。

4.2.2 基础模型#

背景#

目标：在多模态特征提取中降低计算开销，避免从头训练。
方法：采用预训练模型作为骨干网络，直接利用图像、文本和语音的深层表示。
优势：
- 提升计算效率与可行性。
- 适配联邦学习中的边缘设备计算与存储限制 [100]。
策略：使用轻量化模型，满足快速计算、高效存储和便捷部署需求。

1758536642317

各模态特征提取方案（见图 4-3）#

图像数据
- 模型：MobileNetV2 [176]
- 参数规模：4.3M
- 特点：轻量化、高效捕捉图像特征，适用于边缘设备的图像任务。
文本数据
- 模型：MobileBERT [177]
- 对比：原始 BERT [178] 需 340M 参数，MobileBERT 降至 25M
- 特点：瓶颈结构设计，大幅降低计算与存储开销，适配计算受限环境。
语音数据
- 方法：梅尔频率倒谱系数 (MFCC)
- 应用：被广泛用于 Wav2Vec 2.0 [179] 等语音识别模型
- 特点：在有限资源下高效提取语音特征，适合联邦分布式语音分析。

总结#

本章在多模态联邦学习框架下，选择 MobileNetV2、MobileBERT、MFCC 等轻量化方法作为基础模型。
该策略在保证表示能力的同时，显著降低了计算与存储成本，满足物联网与边缘计算环境对多模态数据处理的需求。

4.2.3 基于自注意力机制的联邦多模态特征融合模块#

背景#

在多模态联邦学习框架中，特征融合网络性能对全局模型表现至关重要。
各客户端基于相同的预训练模型提取模态特征，因此全局性能很大程度取决于融合模块的设计。
本章提出 FSM（Federated Self-attention Multimodal feature fusion） 模块，以自注意力机制高效融合多模态特征表示。

FSM 结构（见图 4-4）#

1758537051571

FSM 包含两条传播路径：

注意力传播路径（路径 1）
- 特征拼接 → 全连接层（FC1） → Tanh 池化 → 全连接层（FC2）。
- 引入 LayerNorm提升数值稳定性与梯度传播效果。
- 输出统一特征空间中的模态表示。
自注意力传播路径（路径 2）
- 多头自注意力机制：输入特征经线性映射得到 查询 (Q)、键 (K)、值 (V)。
- 相似度计算：通过 $QK^T$ 获得注意力得分，并归一化为权重。
- 加权计算：利用注意力权重对 $V$ 进行加权，生成全局融合特征。
- 多头机制：每个头有独立的投影矩阵 $W_Q^i, W_K^i, W_V^i$ ，增强表示能力。

公式推导#

投影计算（公式 4-1）
${\mathbf {Q}}_i = {\mathbf {XW}}_i^Q,\quad {\mathbf {K}}_i = {\mathbf {XW}}_i^K,\quad {\mathbf {V}}_i = {\mathbf {XW}}_i^V \tag{4-1}$
- 参数说明：
  - $\mathbf{X}$ ：输入特征矩阵
  - ${\mathbf{W}}_i^Q, {\mathbf{W}}_i^K, {\mathbf{W}}_i^V$ ：第 $i$ 个注意力头的投影矩阵
  - $\mathbf{Q}_i, \mathbf{K}_i, \mathbf{V}_i$ ：分别为查询（Query）、键（Key）、值（Value）矩阵
单头注意力（公式 4-2）
$\text{head}_i = \text{Attention}({\mathbf {Q}}_i, {\mathbf {K}}_i, {\mathbf {V}}_i) = \text{softmax}\left(\frac{{\mathbf {Q}}_i {\mathbf {K}}_i^T}{\sqrt{d_k}}\right){\mathbf {V}}_i \tag{4-2}$
- 参数说明：
  - $\text{head}_i$ ：第 $i$ 个注意力头的输出
  - $d_k$ ：键向量的维度
  - $\text{softmax}$ ：对注意力权重进行归一化处理
多头拼接（公式 4-3）
$\text{MultiHead}({\mathbf {Q}},{\mathbf {K}},{\mathbf {V}}) = \text{Concat}(\text{head}_1,\dots,\text{head}_h){\mathbf {W}}^O \tag{4-3}$
- 参数说明：
  - $\text{head}_1,\dots,\text{head}_h$ ：来自 $h$ 个注意力头的输出
  - $\text{Concat}(\cdot)$ ：拼接操作，将多个注意力头的输出拼接在一起
  - $\mathbf{W}^O$ ：输出投影矩阵

特性与机制#

融合策略：路径 1 与路径 2 输出结果融合后，与原始特征相加 → 生成最终特征表示。
Mask 操作：在模态缺失时屏蔽无效注意力分数，避免噪声干扰，增强鲁棒性。
分类阶段：融合后的特征输入至 多层感知机 (MLP)，执行分类任务。

优势#

动态适应性：
- 自注意力机制可根据输入特征重要性动态分配权重。
增强模态协同：
- 深度捕捉模态间的内在关联性与相对重要性。
鲁棒性强：
- Mask 机制保障缺失模态情况下的稳定性。
全局性能提升：
- 提高特征表达能力与泛化性能，优化联邦学习全局模型。

总结#

FSM 模块通过 多路径融合 + 自注意力机制 + Mask 策略，实现了 高效、鲁棒、动态的多模态特征融合，显著提升了联邦学习在复杂任务场景下的表现。

4.2.4 多模态联邦学习自适应持续更新算法#

背景#

问题：传统的 FedAvg 在 Non-IID 多模态环境下，各客户端数据差异导致 更新方向不一致，从而影响全局模型的稳定性。
解决方案：提出 FedMAC (Federated learning Multimodal Adaptive Continual updating) 算法。
- 在服务端引入 参数差异分析机制 与 自适应持续学习策略。
- 核心目标：缓解异构数据与低参与率带来的不稳定性，增强模型泛化能力。

核心思想#

服务端再训练：
- 不仅聚合参数，还分析客户端模型与全局模型的差异。
- 大幅波动参数 → 施加约束，防止震荡。
- 一致更新方向 → 保持不惩罚，保证正确优化。
持续学习机制：
- 引入 历史梯度均值 调整更新方向，平滑优化过程。
- 弥补低客户端参与率下的差异过大问题。

1758541774912

算法流程（见图 4-5）#

初始化
- 服务端初始化全局模型 $w_0$ ，并广播给客户端。
客户端本地训练
- 每个客户端在本地数据上进行梯度下降，得到 $w_i^t$ 并上传。
服务端再训练
- 计算客户端参数变化量：
  $\Delta w_i^t = w_i^t - w^t$
- 分析变化方向，对波动过大的参数加以约束。
持续学习更新
- 历史 $R$ 轮平均梯度差：
  $\frac{1}{R}\sum_{r=1}^R \Delta w^{t-r} \tag{4-4}$
- 服务端全局更新：
  $w^{t+1} = w^t - \eta \cdot \frac{1}{M}\sum_{i=1}^M (\Delta w_i^t ) - \lambda \cdot \frac{1}{R}\sum_{r=1}^R (\Delta w^{t-r}) \tag{4-5}$
  其中：
  - $\eta$ ：学习率
  - $\lambda$ ：正则化强度超参数
  - $M$ ：当前轮参与客户端数
  - $R$ ：历史记录轮数

优势#

稳定性提升：约束剧烈波动参数，避免全局模型震荡。
持续学习：利用历史梯度信息，增强动态环境适应性。
鲁棒性强：在 模态偏移 Non-IID 场景中有效缓解数据分布不均。
通信效率高：减少因低参与率带来的模型差异，保证收敛稳定性。

总结#

FedMAC 融合 全局梯度再训练 + 持续学习机制，在多模态联邦学习中显著增强了模型对异构数据环境的 适应性与稳定性，为 Non-IID 场景下的高效优化提供了可行方案。

4.2.5 基于扩散模型的缺失图像模态补全算法#

问题背景#

多模态数据中，模态缺失现象普遍存在，尤其在 图文数据集 中：
- 采集条件限制、传输丢失等导致模态缺失。
- 缺失图像模态会严重影响模型的训练和性能，甚至造成收敛困难。
关键挑战：如何高效补全缺失模态，尤其是 图像模态。

方法概述#

本文提出：基于扩散模型的图像模态补全算法。
引入 Stable Diffusion [175] 条件生成模型：
- 以文本为 Prompt，生成符合语义的高质量图像。
- 用于补全缺失图像模态，提升训练效果与泛化能力。

Stable Diffusion 生成机制#

正向扩散 (Noising)
- 在逐步加噪过程中，将数据映射为噪声分布：
  $q(\mathbf {x}_t|\mathbf {x}_{t-1}) = \mathcal{N}(\mathbf {x}_t; \sqrt{\alpha_t} \mathbf {x}_{t-1}, (1-\alpha_t)\mathbf {I}) \tag{4-6}$
- 参数说明：
  - $\mathbf{x}_t$ ：第 $t$ 步的潜在变量
  - $\mathbf{x}_{t-1}$ ：第 $t-1$ 步的潜在变量
  - $\alpha_t$ ：时间步长的缩放因子
  - $\mathbf{I}$ ：单位矩阵
反向扩散 (Denoising)
- 从噪声逐步恢复出清晰图像：
  $p_\theta(\mathbf {x}_{t-1}|\mathbf {x}_t) = \mathcal{N}(\mathbf {x}_{t-1}; \mu_\theta(\mathbf {x}_t,t), \Sigma_\theta(\mathbf {x}_t,t)) \tag{4-7}$
- 参数说明：
  - $\mathbf{x}_{t-1}$ ：第 $t-1$ 步的潜在变量
  - $\mathbf{x}_t$ ：第 $t$ 步的潜在变量
  - $\mu_\theta(\mathbf{x}_t,t)$ ：由模型参数 $\theta$ 预测得到的均值
  - $\Sigma_\theta(\mathbf{x}_t,t)$ ：由模型参数 $\theta$ 预测得到的方差（协方差矩阵）
损失函数
- 最小化预测噪声与真实噪声之间的差异：
  $\mathcal{L}_{diffusion} = \mathbb{E}_{\mathbf{X}_{0}, \epsilon \sim \mathcal{N}(0,I), t} \big[\|\epsilon - \epsilon_\theta(\mathbf{X}_t,t,c)\|_2^2\big] \tag{4-8}$
- 参数说明：
  - $\mathbf{X}_0$ ：原始输入
  - $\epsilon$ ：高斯噪声， $\epsilon \sim \mathcal{N}(0,I)$
  - $\epsilon_\theta(\mathbf{X}_t,t,c)$ ：由模型预测的噪声
  - $c$ ：文本模态嵌入的条件信息
  - $t$ ：时间步
文本条件嵌入
- 通过文本编码器获取条件输入：
  $c = Encoder_{text}(prompt) \tag{4-9}$
- 参数说明：
  - $c$ ：文本条件嵌入向量
  - $Encoder_{text}$ ：预训练文本编码器
  - $prompt$ ：输入文本描述

1758541952718

模态补全流程（见图 4-6）#

输入：文本描述 (Prompt)
步骤：
1. 文本编码器提取语义表示。
2. Stable Diffusion 基于文本语义生成合成图像。
3. 替换缺失或损坏的图像模态。
输出：补全后的图像模态，保证语义一致性。

1758541970222

部署策略优化（见图 4-7）#

客户端：部署计算轻量的文本编码器 (如 MobileBERT)。
服务端：部署计算量大的图像解码器与特征提取器 (如 MobileNetV2)。
流程：
- 客户端仅上传加密后的文本表示。
- 服务端基于文本生成图像 → 提取图像特征 → 返回给客户端。
优势：
- 避免原始数据传输，增强隐私保护。
- 合理分配计算负荷，提升系统训练效率与稳定性。

优势总结#

生成质量高：细节丰富，分辨率优于传统 GAN [180]。
语义一致性：利用文本语义指导图像生成，确保视觉与语义对齐。
隐私安全：客户端-服务端协同计算，避免原始数据暴露。
鲁棒性增强：缓解模态缺失对模型训练的影响，提升整体性能。

4.3 实验设计及结果分析#

4.3.1 实验配置#

硬件与软件环境 与第三章一致（详见 3.4.1 节）。

实验数据集 本章在四个多模态数据集上进行系统验证：

1758614901717

数据集	任务	模态	特征处理	数据量
UCI-HAR	6 项日常活动	加速计、陀螺仪	Raw	8,979
CrisisMMD	8 个人道主义类别	图片、文本	MobileNetV2, MobileBERT	18,126
UCF101	51 个动作标签	音频、视频	MFCCs, MobileNetV2	6,837
Oxford-IIIT Pet	37 个宠物类别	图片、文本	MobileNetV2, MobileBERT	7,349

数据集说明
1. UCI-HAR
  - 用于人类活动识别，包含 30 名志愿者 6 种日常活动的传感器数据。
  - 每个样本含 561 个特征（频域和时域处理）。
  - 加速度计与陀螺仪作为两个不同模态。
  - 为增强 Non-IID 属性，基于 狄利克雷分布 ( $\beta=0.1$ ) 划分为 105 个客户端。
2. CrisisMMD
  - 含 18,126 条推文（图像 + 文本），来源于 7 起重大自然灾害事件。
  - 用于灾害影响分析（如设施损毁、人员伤亡）。
  - 支持模态缺失实验。
3. UCF101
  - 原始包含 101 类动作，本文仅保留含音频 + 视频的 51 类，共 6,837 个样本。
  - 视频：以 1Hz 抽帧。
  - 音频：采用 MFCC 特征。
4. Oxford-IIIT Pet
  - 含 37 个类别，共 7,349 张图片。
  - 使用 GIT 模型[185]生成对应文本描述，构建图文数据集。
  - 用于模态缺失实验。
数据划分策略
- Non-IID 模拟：采用 狄利克雷分布 $Dir(\beta=0.1)$ 进行模态偏移。
- 特殊处理：UCI-HAR 原始为 IID（按参与者均匀划分），本文重新基于狄利克雷分布拆分为 105 个客户端。
评价指标
- UCF101：直接计算准确率。
- UCI-HAR 与 CrisisMMD：使用 Macro F1，更适用于类别不平衡任务。
- Macro F1 定义（公式 4-10）：
  $\text{Macro F1} = \frac{1}{C} \sum_{i=1}^{C}( F1_i )\tag{4-10}$
  - 参数说明：
    - $C$ ：类别数
    - $F1_i$ ：第 $i$ 个类别的 F1 分数
对比算法 采用四种基准聚合方法：
- FedAvg [36]
- FedProx [60]
- FedRS [186]
- FedOpt [187]
训练配置
- 通信轮次：200
- 批量大小：32
- 优化器：Adam
- 初始学习率：0.001
- 学习率策略：余弦衰减
- 权重衰减：0.05

4.3.2 实验结果分析#

实验设置
- 客户端划分：
  - UCI-HAR → 105 个客户端
  - CrisisMMD → 100 个客户端
  - UCF101 → 100 个客户端
- 参与率： $\rho = 0.1$ （每轮仅 10% 客户端上传更新）
- 融合策略对比：
  - 基线：Attention-based Fusion (FedMultimodal [30])
  - 本文：FSM (Federated Self-attention Multimodal feature fusion)
- FedMAC 参数：
  - UCF101、UCI-HAR → $R = 1$
  - CrisisMMD → $R = 3$

实验结果（表 4-2）

![1758615696743](笔记图片/4第四章基于自注意力融合和自适应更新的多模态联邦学习算法.assets/1758615696743.png)

特征融合	聚合方法	UCF101 Acc (%)	UCI-HAR F1 (%)	CrisisMMD F1 (%)
Attention	FedAvg	40.90	76.30	10.43
	FedProx	38.46	74.86	8.61
	FedRS	32.86	74.60	8.01
	FedOpt	63.84	79.38	26.36
	FedMAC	65.31	81.65	29.47
FSM	FedAvg	49.07	77.09	19.36
	FedProx	48.46	77.84	23.70
	FedRS	40.69	77.75	17.39
	FedOpt	67.29	81.31	28.39
	FedMAC	71.14	83.71	34.05

结果分析
1. FSM 融合优势
  - 通过自注意力机制动态分配模态权重，有效提升特征融合能力。
  - 在 UCF101 上：
    - FedProx + FSM 从 38.46% → 48.46%，提升 10.00%。
  - 在 UCI-HAR 上：
    - FedRS + FSM 从 68.65% → 77.75%，提升 9.10%。
  - 在 CrisisMMD 上：
    - FedProx + FSM 从 8.61% → 23.70%，提升 15.09%。
  - 即便结合 FedOpt、FedMAC 等强基线，FSM 仍进一步提升性能。
2. FedMAC 优势
  - 在异质性强、任务复杂的 UCF101 与 CrisisMMD 上表现尤为突出。
  - 例如：UCF101 (FSM 融合) 下，FedRS → FedMAC 提升 32.45%。
  - 通过梯度约束与持续学习，缓解客户端更新不一致问题，增强全局鲁棒性。
3. 可视化结果（图 4-8）
  - 横轴：训练轮次
  - 纵轴：测试集指标
  - 结果显示：FedMAC 始终优于其他方法，尤其在 CrisisMMD 上表现更稳定。

结论
- FSM 能显著提升多模态特征融合能力，增强模型泛化性。
- FedMAC 在 Non-IID 场景下的稳定性优于其他聚合算法。
- FSM + FedMAC 的结合，在灾害评估、动作识别和人体活动识别等多模态 IoT 应用中展现出最优表现。

4.3.3 消融实验#

4.3.3.1 模块消融实验#

实验目的：将 FedMAC 解构为 客户端梯度差异模块 和 持续学习模块，结合 FSM 模块，探究各组件对模型性能的独立贡献。
实验条件：客户端数量与参与率不变，ρ = 0.1。
结果（表 4-3）：

1758616840260

数据集	FSM Fusion	客户端梯度差异	持续学习	评价指标(%)
UCF101	×	×	×	40.90
	√	×	×	49.07
	√	√	×	67.29
	√	√	√	71.14
UCI-HAR	×	×	×	76.30
	√	×	×	77.09
	√	√	×	79.62
	√	√	√	83.71
CrisisMMD	×	×	×	10.43
	√	×	×	19.36
	√	√	×	29.36
	√	√	√	32.63

分析：
- FSM 模块：通过自注意力优化特征融合，在复杂多模态任务中性能显著提升（如 CrisisMMD +8.93%）。
- 客户端梯度差异模块：增强全局模型更新方向感知，使模型更好适应异质性。
- 持续学习模块：在跨时间步保持一致性，缓解客户端数据偏差，提升长期稳定性（如 UCI-HAR +4.09%）。
- 综合效果：启用全部模块性能最佳，验证了三者在多模态联邦学习中的协同作用。

4.3.3.2 持续更新参数 R 消融实验#

实验目的：探索公式 (4-5) 中 FedMAC 的历史更新轮次参数 (R) 对性能和计算开销的影响。

w^{t+1} = w^t - \eta \cdot \frac{1}{M}\sum_{i=1}^M (\Delta w_i^t ) - \lambda \cdot \frac{1}{R}\sum_{r=1}^R (\Delta w^{t-r}) \tag{4-5}

实验条件：
- 数据集：UCF101、UCI-HAR、CrisisMMD
- 参数： $R \in \{1,2,3,4,5\}$
- 指标：准确率(%)、训练时间(秒)、最大 GPU 内存(MB)
结果（表 4-4）：

1758617070092

数据集	R	指标(%)	训练时间(秒)	GPU 内存(MB)
UCF101	1	71.14	372.2	1596
	2	71.35	393.6	1608
	3	71.94	394.0	1618
	4	70.06	405.2	1622
	5	68.88	416.4	1626
UCI-HAR	1	83.71	396.0	1522
	2	83.23	402.0	1524
	3	84.36	405.8	1526
	4	82.81	408.2	1528
	5	82.20	427.4	1530
CrisisMMD	1	32.63	558.6	1382
	2	32.58	563.0	1386
	3	34.05	565.4	1388
	4	32.20	603.8	1396
	5	31.98	614.2	1398

1758617212717

分析：
- 最佳性能：R=3 时准确率最高（如 CrisisMMD：32.63% → 34.05%）。
- 计算成本：R 增大 → 训练时间和显存占用上升。
- 稳定性与效率权衡：
  - 小 R（如 R=1）：收敛快，但波动大。
  - 大 R（如 R=4,5）：更稳定，但性能下降、计算负担重。
  - R=3 是性能与成本的最佳平衡点，尤其适合 CrisisMMD 等复杂数据集。

4.3.4 稳定性实验#

考察 FSM 特征融合与 FedMAC 聚合在不同客户端参与率、客户端数量、以及狄利克雷划分条件下的稳定性与鲁棒性。其余训练配置同前文一致。

4.3.4.1 客户端参与率稳定性实验#

实验设置：

客户端参与率 $\rho \in \{0.3,0.5,0.7,1.0\}$ 。
对比 两种特征融合方式（Attention 与 FSM）和 五种聚合方法（FedAvg、FedProx、FedRS、FedOpt、FedMAC）。
数据集：UCF101、UCI-HAR、CrisisMMD。
评估指标：UCF101 使用 准确率 (Accuracy)，UCI-HAR 与 CrisisMMD 使用 F1 分数。

实验结果#

1758627157383

表 4-5 UCF101 数据集在不同客户端参与率下的准确率 (%) 表现

特征融合方式	聚合方法	ρ=0.3	ρ=0.5	ρ=0.7	ρ=1.0
Attention	FedAvg	61.23	64.47	66.88	67.99
	FedProx	60.92	64.42	66.56	65.25
	FedRS	59.03	61.55	60.81	64.40
	FedOpt	69.40	70.70	70.83	70.85
	FedMAC	71.27	71.84	71.27	72.05
FSM	FedAvg	61.96	65.74	67.80	68.30
	FedProx	67.93	65.48	68.52	68.78
	FedRS	61.32	63.13	63.45	64.72
	FedOpt	70.70	71.53	71.27	71.31
	FedMAC	71.79	71.99	72.68	72.10

1758627175875

表 4-6 UCI-HAR 数据集在不同客户端参与率下的 F1 (%) 表现

特征融合方式	聚合方法	ρ=0.3	ρ=0.5	ρ=0.7	ρ=1.0
Attention	FedAvg	75.99	77.42	78.56	78.11
	FedProx	77.03	77.34	77.29	77.76
	FedRS	72.86	70.37	73.17	72.01
	FedOpt	79.38	81.03	80.84	80.86
	FedMAC	82.35	82.64	82.05	82.75
FSM	FedAvg	80.42	79.71	79.91	79.56
	FedProx	80.32	79.49	79.43	79.33
	FedRS	75.57	75.24	76.04	75.14
	FedOpt	81.22	84.07	83.76	81.86
	FedMAC	83.11	86.82	86.80	85.74

1758627195597

表 4-7 CrisisMMD 数据集在不同客户端参与率下的 F1 (%) 表现

特征融合方式	聚合方法	ρ=0.3	ρ=0.5	ρ=0.7	ρ=1.0
Attention	FedAvg	12.23	12.95	10.14	10.01
	FedProx	16.64	15.57	16.61	11.96
	FedRS	8.27	10.52	9.36	12.16
	FedOpt	30.03	30.14	30.36	30.46
	FedMAC	30.99	31.88	31.61	31.74
FSM	FedAvg	27.64	29.70	24.62	28.98
	FedProx	28.17	30.19	26.37	29.36
	FedRS	29.97	30.87	25.76	26.80
	FedOpt	30.69	31.24	31.47	30.70
	FedMAC	34.21	32.58	32.21	32.00

结论分析#

UCF101 数据集：准确率随参与率 $\rho$ 增加呈稳定上升趋势。FSM + FedMAC 组合达到最佳表现，说明 FSM 对视频数据复杂特征关系的建模更优。
UCI-HAR 数据集：以 F1 分数为准，FSM 融合表现优于 Attention，特别是与 FedMAC 结合时性能最佳，显示其对时序数据的鲁棒性。
CrisisMMD 数据集：FSM + FedMAC 在所有参与率下均优于其它组合，尤其在高参与率下保持优势，证明其在处理强异构多模态数据时的稳定性和泛化能力。

综合结论：

FSM 融合方法整体优于 Attention，特别适用于异构性强或任务复杂度高的多模态场景（如 CrisisMMD）。
FedMAC 在大多数情况下取得最优结果，在高参与率 ( $\rho=1.0$ ) 时优势更明显，表明其在大型联邦系统中的可扩展性与稳定性。
部分算法（如 FedAvg、FedProx）在 CrisisMMD 高参与率下性能反而下降，说明其对模态偏移数据的聚合能力较弱。

4.3.4.2 客户端数量稳定性实验#

实验设置：

数据集：UCF101、CrisisMMD。
数据划分：狄利克雷分布参数设为 $\beta=0.1$ ，划分为 $N=10$ 和 $N=50$ 个客户端，以模拟更高异构性情境下的数据分布特征。
参与率： $\rho=0.3$ 。
通信轮次：200。
数据分布可视化结果见 图 4-10（客户端数据样本类别分布）。

1758627660577

实验结果见 表 4-8。

实验结果#

1758627672358

表 4-8 改变客户端数量稳定性实验

特征融合方式	聚合方法	UCF101 Acc (%) N=10	UCF101 Acc (%) N=50	CrisisMMD F1 (%) N=10	CrisisMMD F1 (%) N=50
Attention	FedAvg	66.67	53.45	11.00	15.59
	FedProx	68.35	54.48	15.55	18.22
	FedRS	69.14	59.92	11.50	19.13
	FedOpt	66.77	66.98	16.87	20.94
	FedMAC	70.94	69.07	21.61	29.12
FSM	FedAvg	68.81	56.83	15.98	17.74
	FedProx	69.86	58.77	17.08	23.57
	FedRS	70.09	58.71	15.73	16.50
	FedOpt	68.03	68.18	17.61	27.37
	FedMAC	71.19	70.32	23.32	30.78

结论分析#

FSM + FedMAC 表现最优：在 UCF101 与 CrisisMMD 两个数据集上，不论客户端数量为 10 还是 50，FSM 与 FedMAC 的组合均保持了较高的稳定性和适应性。
客户端数量增加对性能的影响有限：
- UCF101：准确率未显著下降。
- CrisisMMD：F1 得分随客户端数量增加甚至有所提升，说明 FedMAC 聚合策略能有效应对因客户端数量增加而带来的数据异构性挑战。
Attention 融合方法对客户端数量敏感： FedAvg 和 FedRS 在客户端数量增加时性能波动较大，表明它们难以在大量客户端场景下有效处理模态偏移 Non-IID 数据，表现出不稳定性。
综合结论：
- FSM 特征融合方式结合 FedMAC 聚合策略在不同客户端数量条件下展现出 最佳性能与最小波动性。
- 该组合在应对 多客户端、多模态任务 时具有较强的适应性和稳定性，为大规模联邦学习提供了可靠支持。

4.3.4.3 不同模态偏移程度稳定性实验#

实验设置：

通过调节狄利克雷分布参数 $\beta$ 控制客户端数据分布的异质性。
参数范围： $\beta \in \{0.1,0.3,0.5,0.7,1.0\}$ 。
$\beta$ 较小时：数据分布高度不均衡，表现出强烈的 Non-IID 特性。
$\beta$ 较大时：数据分布更趋均衡，客户端差异减小，接近 IID。
实验结果列于 表 4-9 至 表 4-11。

实验结果#

1758627720997

表 4-9 UCF101 数据集在不同分布下的准确率 (%) 表现

特征融合方式	聚合方法	β=0.1	β=0.3	β=0.5	β=0.7	β=1.0
Attention	FedAvg	40.90	49.50	26.95	26.23	17.39
	FedProx	38.46	46.89	26.01	24.38	17.27
	FedRS	32.86	44.74	27.89	28.65	19.00
	FedOpt	63.84	68.67	64.09	67.61	67.03
	FedMAC	65.31	69.46	67.97	69.96	68.76
FSM	FedAvg	49.07	56.67	56.75	53.81	53.06
	FedProx	48.46	58.03	56.86	53.14	54.54
	FedRS	40.69	51.44	54.11	50.46	53.09
	FedOpt	67.29	69.39	68.98	68.45	69.34
	FedMAC	71.14	70.59	70.32	70.56	71.11

1758627733714

表 4-10 UCI-HAR 数据集在不同分布下的 F1 (%) 表现

特征融合方式	聚合方法	β=0.1	β=0.3	β=0.5	β=0.7	β=1.0
Attention	FedAvg	76.30	76.89	78.08	78.82	78.53
	FedProx	74.86	78.58	77.98	78.44	78.27
	FedRS	74.60	74.27	78.32	78.16	77.90
	FedOpt	79.38	80.47	80.77	80.31	78.36
	FedMAC	81.65	81.94	81.54	81.28	81.04
FSM	FedAvg	77.09	79.04	78.49	78.97	79.43
	FedProx	77.84	77.78	78.23	78.89	78.81
	FedRS	77.75	76.22	79.97	78.61	79.41
	FedOpt	81.31	79.90	81.68	81.42	80.44
	FedMAC	83.71	82.27	82.00	82.19	82.28

1758627755494

表 4-11 CrisisMMD 数据集在不同分布下的 F1 (%) 表现

特征融合方式	聚合方法	β=0.1	β=0.3	β=0.5	β=0.7	β=1.0
Attention	FedAvg	10.43	23.53	30.93	34.21	36.16
	FedProx	8.61	22.78	31.21	34.05	36.62
	FedRS	8.01	20.91	30.45	35.85	36.97
	FedOpt	26.36	31.41	32.28	36.74	37.57
	FedMAC	29.47	32.75	34.83	38.21	38.48
FSM	FedAvg	19.36	25.19	31.43	35.63	37.41
	FedProx	23.70	24.27	32.56	36.62	37.44
	FedRS	17.39	25.63	30.54	37.86	38.02
	FedOpt	28.39	32.06	33.52	38.43	38.45
	FedMAC	32.63	33.66	35.45	38.82	40.74

结论分析#

UCF101 数据集：
- FedAvg、FedProx、FedRS 在低 $\beta$ （高异质性）时表现较好，但随着 $\beta$ 增大趋向 IID，性能反而下降。
- 这是因为在接近 IID 分布时可能出现 神经崩溃 (Neural Collapse) [188] 现象，分类器原型向量和类向量收敛到 单纯形等角紧框架 (ETF) [189] 结构。
- 在 Attention 融合下，这种现象更为明显，导致性能显著下降。
FSM 融合策略：有效缓解了神经崩溃问题，在趋近 IID 分布时依然保持稳定性。
FedOpt 与 FedMAC：在不同 $\beta$ 值下展现出显著的鲁棒性，在高度异质性与接近 IID 的条件下均能保持高性能。特别是 FedMAC 在所有 $\beta$ 设置下表现最优，说明其能有效应对复杂数据异质性挑战。
UCI-HAR 与 CrisisMMD 数据集：未出现神经崩溃现象。FedMAC 在两个数据集上的 F1 分数均明显优于其他方法，并且在结合 FSM 融合后达到了最优结果。

综合结论：

在多模态联邦学习中，数据分布趋近 IID 时并不总能带来性能提升，可能因神经崩溃导致性能下降。
FSM + FedMAC 组合在不同 $\beta$ 条件下均展现最佳稳定性和适应性，是应对模态偏移 Non-IID 挑战的有效方案。

4.3.5 图片模态补全实验#

多模态学习的核心挑战之一是缺失模态。本节针对图文数据集在不同图片模态缺失率下进行基准测试，评估缺失处理策略在多模态联邦学习中的有效性。

实验设置#

缺失率： $q \in \{0.1,0.2,0.3,0.4,0.5\}$ 。
融合方法：采用 FSM（见 §4.2.3）；其 Mask 结构支持在存在缺失数据时通过掩蔽继续训练。
处理方式对比：
1. 零填充（Zero Padding） [182]：对缺失位置填 0，并在注意力计算中屏蔽相应数据点（方式 1）。
2. 基于扩散模型的缺失图像模态补全算法（方式 2）：利用生成式模型推测并补全缺失图像。
Stable Diffusion 配置（用于方式 2）：
- 采样器(Sampler)：DPM++ 2M
- 调度类型(Schedule type)：Automatic
- 采样步骤(Sampling steps)：20
- 生成尺寸： $512 \times 512$
- 将缺失图片对应的文本内容作为 Prompt 输入
示例可视化：CrisisMMD 生成案例见 表 4-12（“Prompt / 原图 / 生成图像”三列示意）。

1758633526879

性能展示：趋势图见 图 4-11（不同处理方法的下降率）。

1758633546232

CrisisMMD：不同缺失率下的 F1（%）#

表 4-13 模态缺失下不同处理方法的 F1（%）表现

1758633538290

缺失数据填充方式	聚合方法	q=0.1	q=0.2	q=0.3	q=0.4	q=0.5
零填充	FedAvg	15.53	15.43	12.99	10.77	9.15
	FedProx	12.61	11.35	10.41	10.03	9.82
	FedRS	13.28	13.30	11.05	10.77	9.00
	FedOpt	26.99	24.60	21.36	20.81	18.10
	FedMAC	31.07	29.92	27.99	26.00	23.26
基于扩散模型的缺失图像模态补全算法	FedAvg	12.94	13.20	14.25	14.51	14.90
	FedProx	12.93	12.38	14.01	13.92	15.13
	FedRS	9.73	10.11	13.24	15.22	16.23
	FedOpt	16.94	17.24	23.15	25.71	27.04
	FedMAC	21.60	23.57	29.36	30.49	31.16

观察：

零填充在所有方法中随缺失率升高明显下降，说明其应对高缺失率较弱。
扩散模型补全在低缺失率（ $q \le 0.3$ ）时整体不如零填充，但在高缺失率（ $q \ge 0.4$ ）时显著优于零填充；其中 FedMAC 受益最明显。

Oxford-IIIT Pet：生成文本 + 扩散补全#

该数据集缺少文本提示，使用 GIT 模型 [185] 为每幅图像生成与类别一致的文本描述，构建图文对（示意见 表 4-14：“Prompt / 原图 / 生成图像”）。

1758633571546

训练/测试划分：8:2；以狄利克雷分布（ $\beta=0.1$ ）将训练集划分为 100 个客户端，客户端参与率 0.1，共 100 轮。
为降低文本模态对融合的干扰，在 MobileBERT 提取的文本特征上以 0.1 概率添加噪声，引导网络关注缺失图像模态影响。

表 4-15 模态缺失下不同处理方法的 F1（%）表现

1758633581806

缺失数据填充方式	聚合方法	q=0.1	q=0.2	q=0.3	q=0.4	q=0.5
零填充	FedAvg	99.29	96.51	96.19	94.97	93.35
	FedProx	98.12	96.43	95.37	94.16	93.82
	FedRS	98.27	96.74	95.66	93.56	93.08
	FedOpt	99.40	98.52	96.43	95.99	95.13
	FedMAC	99.62	98.85	96.89	96.29	96.04
基于扩散模型的缺失图像模态补全算法	FedAvg	99.56	99.20	99.40	99.52	99.56
	FedProx	99.32	99.46	99.59	99.43	99.52
	FedRS	99.23	99.24	99.29	99.22	99.27
	FedOpt	99.83	99.84	99.75	99.45	99.56
	FedMAC	99.94	99.86	99.86	99.94	99.94

观察：

在所有设定下，方式 2（扩散补全）均优于方式 1（零填充），呈现一致且显著的性能提升，表明生成图像具备良好泛化性并能在不同聚合方法中稳定增益。

结论#

零填充：实现简单，但在高缺失率场景下性能下降显著。
扩散模型补全：
- 在 高缺失率 时优势明显，显著提升稳定性与性能；
- 在 CrisisMMD 与 Oxford-IIIT Pet 上均验证了有效性；
- 与 FedMAC 结合效果最优。
总体而言，基于 Stable Diffusion 的缺失图像模态补全算法是应对模态缺失 + 模态偏移 Non-IID 环境的有效策略，可显著增强多模态联邦学习的稳健性与适应性。

4.4 本章小结#

本章围绕多模态联邦学习环境下的完全多模态偏移问题展开研究。面对不同客户端在数据模态与分布上的显著差异所带来的挑战（训练稳定性差、模型融合能力不足、以及模态缺失），本章提出并验证了如下方案：

方法方面
- 提出基于自注意力机制的联邦多模态特征融合模块，以提升多模态数据融合的准确性。
- 提出多模态联邦学习自适应持续更新算法，增强模型在异构场景下的稳定性。
- 引入 Stable Diffusion，提出基于扩散模型的图像模态补全算法：利用文本提示生成缺失的图像模态数据，以缓解模态缺失并提高不完整模态场景下的适应能力。
实验结论
- 所提出方法有效缓解因模态偏移导致的训练不稳定问题。
- 显著提升了多模态数据融合能力与模型的持续学习能力。

基于自注意力融合和自适应更新的多模态联邦学习算法

https://castorice.xin/posts/基于自注意力融合和自适应更新的多模态联邦学习算法/

作者

Mizuki

发布于

2025-09-30

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

Transformer架构详解

自注意力机制（Self-Attention）

Castorice的奇妙博客

基于自注意力融合和自适应更新的多模态联邦学习算法#

4.1 引言#

研究背景与动机#

实践观察与问题提出#

核心挑战#

本章主要贡献#

4.2 方法详述#

4.2.1 总体框架#

4.2.2 基础模型#

背景#

各模态特征提取方案（见图 4-3）#

总结#

4.2.3 基于自注意力机制的联邦多模态特征融合模块#

背景#

FSM 结构（见图 4-4）#

公式推导#

特性与机制#

优势#

总结#

4.2.4 多模态联邦学习自适应持续更新算法#

背景#

核心思想#

算法流程（见图 4-5）#

优势#

总结#

4.2.5 基于扩散模型的缺失图像模态补全算法#

问题背景#

方法概述#

Stable Diffusion 生成机制#

模态补全流程（见图 4-6）#

部署策略优化（见图 4-7）#

优势总结#

4.3 实验设计及结果分析#

4.3.1 实验配置#

4.3.2 实验结果分析#

4.3.3 消融实验#

4.3.3.1 模块消融实验#

4.3.3.2 持续更新参数 R 消融实验#

4.3.4 稳定性实验#

4.3.4.1 客户端参与率稳定性实验#

实验结果#

结论分析#

4.3.4.2 客户端数量稳定性实验#

实验结果#

结论分析#

4.3.4.3 不同模态偏移程度稳定性实验#

实验结果#

结论分析#

4.3.5 图片模态补全实验#

实验设置#

CrisisMMD：不同缺失率下的 F1（%）#

Oxford-IIIT Pet：生成文本 + 扩散补全#

结论#

4.4 本章小结#