基于自注意力融合和自适应更新的多模态联邦学习算法
4.1 引言
研究背景与动机
- 物联网设备带来的数据多样性推动了多模态学习在 视听语音识别、图文检索、语义分析 等方向的发展。
- 联邦学习的分布式训练与多模态数据的 独立性/分散性 高度契合。
- 图 4-1 给出了多模态技术在联邦学习中的应用。

实践观察与问题提出
- 直觉:多模态应优于单模态。
- 现实:为收敛需显著增加通信轮次,且准确性反而低于单模态。
- 引出:亟需系统研究 模态偏移 (Non-IID) 对多模态联邦学习的影响。
核心挑战
- 静态融合局限性
- 多数方法对不同模态采用统一处理与融合。
- 忽视模态差异 → 信息冗余与损失。
- 需求:动态、适应性融合机制。
- 模态偏移 Non-IID
- 不同模态/客户端存在显著统计差异。
- 简单全局优化会导致部分模态或客户端性能下降。
- 模态不完整性
- 受设备限制、环境干扰、传感器故障等影响,数据常缺失。
- 需求:数据恢复与缺失补全,提升鲁棒性。
本章主要贡献
- FSM:基于自注意力的联邦多模态特征融合模块
- 自适应融合多模态特征,动态生成前向路径。
- 提升融合准确性与预测性能,增强泛化能力。
- FedMAC:多模态联邦学习自适应持续更新算法
- 基于“当前全局 vs. 当前客户端”及“当前全局 vs. 历史全局”的梯度差进行更新。
- 缓解模态偏移影响,提升模型稳定性。
- 基于 Stable Diffusion 的缺失模态补全
- 以文本提示生成图像进行模态填充。
- 采用分布式部署,仅传递文本表示与图像特征,避免原始数据传输。
- 兼顾算力与隐私,提升缺失模态场景下的鲁棒性。
4.2 方法详述
4.2.1 总体框架
- 本章提出的总体框架由三部分组成:
- FSM 模块(Federated Self-attention Multimodal Feature fusion)
- 基于自注意力机制的多模态特征融合。
- 用于改善多模态数据融合中的静态融合局限性。
- FedMAC 算法(Federated Learning Multimodal Adaptive Continual updating)
- 通过全局与客户端模型的梯度差异进行自适应持续更新。
- 缓解多模态场景下的 Non-IID 问题,提升整体稳定性。
- Stable Diffusion 模态补全
- 针对图文多模态学习中 图像缺失率高 的问题。
- 通过文本提示生成相关图像,用于模态补全。
- 仅传递 特征表示 而非原始数据,以满足算力与隐私要求。
- FSM 模块(Federated Self-attention Multimodal Feature fusion)
- 研究目标
- 同时应对 模态偏移(Non-IID) 与 模态缺失 的挑战。
- 提升多模态联邦学习在复杂场景下的 准确性与鲁棒性。
- 为多模态数据的高效流通与利用提供新方向。

图 4-2 总体架构说明
-
客户端侧:
- 设备(如移动手机、个人电脑等)持有模态数据。
- 通过 FSM 模块完成模态 1 与模态 2 的特征融合。
- 上传模型更新(经过加密的数据)。
-
服务端侧:
- 聚合来自多个客户端的上传模型。
- 结合过去 R 轮的全局模型与当前客户端模型进行 FedMAC 更新。
- 实现持续学习与全局模型优化。
-
模态补全过程:
- 当图像模态缺失时,文本输入经过 文本编码器 与 Stable Diffusion 模型生成相关图像特征。
- 与文本特征共同作为输入补全缺失模态,保证训练的完整性。
-
公式要点:
-
全局模型在第 (t) 轮更新时,引入过去 R 轮信息,结合客户端上传的模型差异进行修正:
-
其中:
- ():当前轮客户端与全局模型的梯度差。
- ():过去 R 轮的历史梯度差。
- ():学习率与权衡系数。
-
4.2.2 基础模型
背景
- 目标:在多模态特征提取中降低计算开销,避免从头训练。
- 方法:采用预训练模型作为骨干网络,直接利用图像、文本和语音的深层表示。
- 优势:
- 提升计算效率与可行性。
- 适配联邦学习中的边缘设备计算与存储限制 [100]。
- 策略:使用轻量化模型,满足快速计算、高效存储和便捷部署需求。

各模态特征提取方案(见图 4-3)
- 图像数据
- 模型:MobileNetV2 [176]
- 参数规模:4.3M
- 特点:轻量化、高效捕捉图像特征,适用于边缘设备的图像任务。
- 文本数据
- 模型:MobileBERT [177]
- 对比:原始 BERT [178] 需 340M 参数,MobileBERT 降至 25M
- 特点:瓶颈结构设计,大幅降低计算与存储开销,适配计算受限环境。
- 语音数据
- 方法:梅尔频率倒谱系数 (MFCC)
- 应用:被广泛用于 Wav2Vec 2.0 [179] 等语音识别模型
- 特点:在有限资源下高效提取语音特征,适合联邦分布式语音分析。
总结
- 本章在多模态联邦学习框架下,选择 MobileNetV2、MobileBERT、MFCC 等轻量化方法作为基础模型。
- 该策略在保证表示能力的同时,显著降低了计算与存储成本,满足物联网与边缘计算环境对多模态数据处理的需求。
4.2.3 基于自注意力机制的联邦多模态特征融合模块
背景
- 在多模态联邦学习框架中,特征融合网络性能对全局模型表现至关重要。
- 各客户端基于相同的预训练模型提取模态特征,因此全局性能很大程度取决于融合模块的设计。
- 本章提出 FSM(Federated Self-attention Multimodal feature fusion) 模块,以自注意力机制高效融合多模态特征表示。
FSM 结构(见图 4-4)

FSM 包含两条传播路径:
- 注意力传播路径(路径 1)
- 特征拼接 → 全连接层(FC1) → Tanh 池化 → 全连接层(FC2)。
- 引入 LayerNorm提升数值稳定性与梯度传播效果。
- 输出统一特征空间中的模态表示。
- 自注意力传播路径(路径 2)
- 多头自注意力机制:输入特征经线性映射得到 查询 (Q)、键 (K)、值 (V)。
- 相似度计算:通过 获得注意力得分,并归一化为权重。
- 加权计算:利用注意力权重对 进行加权,生成全局融合特征。
- 多头机制:每个头有独立的投影矩阵 ,增强表示能力。
公式推导
-
投影计算(公式 4-1)
- 参数说明:
- :输入特征矩阵
- :第 个注意力头的投影矩阵
- :分别为查询(Query)、键(Key)、值(Value)矩阵
- 参数说明:
-
单头注意力(公式 4-2)
- 参数说明:
- :第 个注意力头的输出
- :键向量的维度
- :对注意力权重进行归一化处理
- 参数说明:
-
多头拼接(公式 4-3)
- 参数说明:
- :来自 个注意力头的输出
- :拼接操作,将多个注意力头的输出拼接在一起
- :输出投影矩阵
- 参数说明:
特性与机制
- 融合策略:路径 1 与路径 2 输出结果融合后,与原始特征相加 → 生成最终特征表示。
- Mask 操作:在模态缺失时屏蔽无效注意力分数,避免噪声干扰,增强鲁棒性。
- 分类阶段:融合后的特征输入至 多层感知机 (MLP),执行分类任务。
优势
- 动态适应性:
- 自注意力机制可根据输入特征重要性动态分配权重。
- 增强模态协同:
- 深度捕捉模态间的内在关联性与相对重要性。
- 鲁棒性强:
- Mask 机制保障缺失模态情况下的稳定性。
- 全局性能提升:
- 提高特征表达能力与泛化性能,优化联邦学习全局模型。
总结
FSM 模块通过 多路径融合 + 自注意力机制 + Mask 策略,实现了 高效、鲁棒、动态的多模态特征融合,显著提升了联邦学习在复杂任务场景下的表现。
4.2.4 多模态联邦学习自适应持续更新算法
背景
- 问题:传统的 FedAvg 在 Non-IID 多模态环境下,各客户端数据差异导致 更新方向不一致,从而影响全局模型的稳定性。
- 解决方案:提出 FedMAC (Federated learning Multimodal Adaptive Continual updating) 算法。
- 在服务端引入 参数差异分析机制 与 自适应持续学习策略。
- 核心目标:缓解异构数据与低参与率带来的不稳定性,增强模型泛化能力。
核心思想
- 服务端再训练:
- 不仅聚合参数,还分析客户端模型与全局模型的差异。
- 大幅波动参数 → 施加约束,防止震荡。
- 一致更新方向 → 保持不惩罚,保证正确优化。
- 持续学习机制:
- 引入 历史梯度均值 调整更新方向,平滑优化过程。
- 弥补低客户端参与率下的差异过大问题。

算法流程(见图 4-5)
-
初始化
- 服务端初始化全局模型 ,并广播给客户端。
-
客户端本地训练
- 每个客户端在本地数据上进行梯度下降,得到 并上传。
-
服务端再训练
-
计算客户端参数变化量:
-
分析变化方向,对波动过大的参数加以约束。
-
-
持续学习更新
-
历史 轮平均梯度差:
-
服务端全局更新:
其中:
- :学习率
- :正则化强度超参数
- :当前轮参与客户端数
- :历史记录轮数
-
优势
- 稳定性提升:约束剧烈波动参数,避免全局模型震荡。
- 持续学习:利用历史梯度信息,增强动态环境适应性。
- 鲁棒性强:在 模态偏移 Non-IID 场景中有效缓解数据分布不均。
- 通信效率高:减少因低参与率带来的模型差异,保证收敛稳定性。
总结
FedMAC 融合 全局梯度再训练 + 持续学习机制,在多模态联邦学习中显著增强了模型对异构数据环境的 适应性与稳定性,为 Non-IID 场景下的高效优化提供了可行方案。
4.2.5 基于扩散模型的缺失图像模态补全算法
问题背景
- 多模态数据中,模态缺失现象普遍存在,尤其在 图文数据集 中:
- 采集条件限制、传输丢失等导致模态缺失。
- 缺失图像模态会严重影响模型的训练和性能,甚至造成收敛困难。
- 关键挑战:如何高效补全缺失模态,尤其是 图像模态。
方法概述
- 本文提出:基于扩散模型的图像模态补全算法。
- 引入 Stable Diffusion [175] 条件生成模型:
- 以文本为 Prompt,生成符合语义的高质量图像。
- 用于补全缺失图像模态,提升训练效果与泛化能力。
Stable Diffusion 生成机制
-
正向扩散 (Noising)
-
在逐步加噪过程中,将数据映射为噪声分布:
-
参数说明:
- :第 步的潜在变量
- :第 步的潜在变量
- :时间步长的缩放因子
- :单位矩阵
-
-
反向扩散 (Denoising)
-
从噪声逐步恢复出清晰图像:
-
参数说明:
- :第 步的潜在变量
- :第 步的潜在变量
- :由模型参数 预测得到的均值
- :由模型参数 预测得到的方差(协方差矩阵)
-
-
损失函数
-
最小化预测噪声与真实噪声之间的差异:
-
参数说明:
- :原始输入
- :高斯噪声,
- :由模型预测的噪声
- :文本模态嵌入的条件信息
- :时间步
-
-
文本条件嵌入
-
通过文本编码器获取条件输入:
-
参数说明:
- :文本条件嵌入向量
- :预训练文本编码器
- :输入文本描述
-

模态补全流程(见图 4-6)
- 输入:文本描述 (Prompt)
- 步骤:
- 文本编码器提取语义表示。
- Stable Diffusion 基于文本语义生成合成图像。
- 替换缺失或损坏的图像模态。
- 输出:补全后的图像模态,保证语义一致性。

部署策略优化(见图 4-7)
- 客户端:部署计算轻量的文本编码器 (如 MobileBERT)。
- 服务端:部署计算量大的图像解码器与特征提取器 (如 MobileNetV2)。
- 流程:
- 客户端仅上传加密后的文本表示。
- 服务端基于文本生成图像 → 提取图像特征 → 返回给客户端。
- 优势:
- 避免原始数据传输,增强隐私保护。
- 合理分配计算负荷,提升系统训练效率与稳定性。
优势总结
- 生成质量高:细节丰富,分辨率优于传统 GAN [180]。
- 语义一致性:利用文本语义指导图像生成,确保视觉与语义对齐。
- 隐私安全:客户端-服务端协同计算,避免原始数据暴露。
- 鲁棒性增强:缓解模态缺失对模型训练的影响,提升整体性能。
4.3 实验设计及结果分析
4.3.1 实验配置
-
硬件与软件环境 与第三章一致(详见 3.4.1 节)。
-
实验数据集 本章在四个多模态数据集上进行系统验证:

数据集 任务 模态 特征处理 数据量 UCI-HAR 6 项日常活动 加速计、陀螺仪 Raw 8,979 CrisisMMD 8 个人道主义类别 图片、文本 MobileNetV2, MobileBERT 18,126 UCF101 51 个动作标签 音频、视频 MFCCs, MobileNetV2 6,837 Oxford-IIIT Pet 37 个宠物类别 图片、文本 MobileNetV2, MobileBERT 7,349 -
数据集说明
- UCI-HAR
- 用于人类活动识别,包含 30 名志愿者 6 种日常活动的传感器数据。
- 每个样本含 561 个特征(频域和时域处理)。
- 加速度计与陀螺仪作为两个不同模态。
- 为增强 Non-IID 属性,基于 狄利克雷分布 () 划分为 105 个客户端。
- CrisisMMD
- 含 18,126 条推文(图像 + 文本),来源于 7 起重大自然灾害事件。
- 用于灾害影响分析(如设施损毁、人员伤亡)。
- 支持模态缺失实验。
- UCF101
- 原始包含 101 类动作,本文仅保留含音频 + 视频的 51 类,共 6,837 个样本。
- 视频:以 1Hz 抽帧。
- 音频:采用 MFCC 特征。
- Oxford-IIIT Pet
- 含 37 个类别,共 7,349 张图片。
- 使用 GIT 模型[185]生成对应文本描述,构建图文数据集。
- 用于模态缺失实验。
- UCI-HAR
-
数据划分策略
- Non-IID 模拟:采用 狄利克雷分布 进行模态偏移。
- 特殊处理:UCI-HAR 原始为 IID(按参与者均匀划分),本文重新基于狄利克雷分布拆分为 105 个客户端。
-
评价指标
-
UCF101:直接计算准确率。
-
UCI-HAR 与 CrisisMMD:使用 Macro F1,更适用于类别不平衡任务。
-
Macro F1 定义(公式 4-10):
- 参数说明:
- :类别数
- :第 个类别的 F1 分数
- 参数说明:
-
-
对比算法 采用四种基准聚合方法:
- FedAvg [36]
- FedProx [60]
- FedRS [186]
- FedOpt [187]
-
训练配置
- 通信轮次:200
- 批量大小:32
- 优化器:Adam
- 初始学习率:0.001
- 学习率策略:余弦衰减
- 权重衰减:0.05
4.3.2 实验结果分析
- 实验设置
- 客户端划分:
- UCI-HAR → 105 个客户端
- CrisisMMD → 100 个客户端
- UCF101 → 100 个客户端
- 参与率:(每轮仅 10% 客户端上传更新)
- 融合策略对比:
- 基线:Attention-based Fusion (FedMultimodal [30])
- 本文:FSM (Federated Self-attention Multimodal feature fusion)
- FedMAC 参数:
- UCF101、UCI-HAR →
- CrisisMMD →
- 客户端划分:
- 实验结果(表 4-2)

| 特征融合 | 聚合方法 | UCF101 Acc (%) | UCI-HAR F1 (%) | CrisisMMD F1 (%) |
|---|---|---|---|---|
| Attention | FedAvg | 40.90 | 76.30 | 10.43 |
| FedProx | 38.46 | 74.86 | 8.61 | |
| FedRS | 32.86 | 74.60 | 8.01 | |
| FedOpt | 63.84 | 79.38 | 26.36 | |
| FedMAC | 65.31 | 81.65 | 29.47 | |
| FSM | FedAvg | 49.07 | 77.09 | 19.36 |
| FedProx | 48.46 | 77.84 | 23.70 | |
| FedRS | 40.69 | 77.75 | 17.39 | |
| FedOpt | 67.29 | 81.31 | 28.39 | |
| FedMAC | 71.14 | 83.71 | 34.05 |
-
结果分析
-
FSM 融合优势
- 通过自注意力机制动态分配模态权重,有效提升特征融合能力。
- 在 UCF101 上:
- FedProx + FSM 从 38.46% → 48.46%,提升 10.00%。
- 在 UCI-HAR 上:
- FedRS + FSM 从 68.65% → 77.75%,提升 9.10%。
- 在 CrisisMMD 上:
- FedProx + FSM 从 8.61% → 23.70%,提升 15.09%。
- 即便结合 FedOpt、FedMAC 等强基线,FSM 仍进一步提升性能。
-
FedMAC 优势
- 在异质性强、任务复杂的 UCF101 与 CrisisMMD 上表现尤为突出。
- 例如:UCF101 (FSM 融合) 下,FedRS → FedMAC 提升 32.45%。
- 通过梯度约束与持续学习,缓解客户端更新不一致问题,增强全局鲁棒性。
-
可视化结果(图 4-8)

- 横轴:训练轮次
- 纵轴:测试集指标
- 结果显示:FedMAC 始终优于其他方法,尤其在 CrisisMMD 上表现更稳定。
-
- 结论
- FSM 能显著提升多模态特征融合能力,增强模型泛化性。
- FedMAC 在 Non-IID 场景下的稳定性优于其他聚合算法。
- FSM + FedMAC 的结合,在灾害评估、动作识别和人体活动识别等多模态 IoT 应用中展现出最优表现。
4.3.3 消融实验
4.3.3.1 模块消融实验
- 实验目的:将 FedMAC 解构为 客户端梯度差异模块 和 持续学习模块,结合 FSM 模块,探究各组件对模型性能的独立贡献。
- 实验条件:客户端数量与参与率不变,ρ = 0.1。
- 结果(表 4-3):

| 数据集 | FSM Fusion | 客户端梯度差异 | 持续学习 | 评价指标(%) |
|---|---|---|---|---|
| UCF101 | × | × | × | 40.90 |
| √ | × | × | 49.07 | |
| √ | √ | × | 67.29 | |
| √ | √ | √ | 71.14 | |
| UCI-HAR | × | × | × | 76.30 |
| √ | × | × | 77.09 | |
| √ | √ | × | 79.62 | |
| √ | √ | √ | 83.71 | |
| CrisisMMD | × | × | × | 10.43 |
| √ | × | × | 19.36 | |
| √ | √ | × | 29.36 | |
| √ | √ | √ | 32.63 |
- 分析:
- FSM 模块:通过自注意力优化特征融合,在复杂多模态任务中性能显著提升(如 CrisisMMD +8.93%)。
- 客户端梯度差异模块:增强全局模型更新方向感知,使模型更好适应异质性。
- 持续学习模块:在跨时间步保持一致性,缓解客户端数据偏差,提升长期稳定性(如 UCI-HAR +4.09%)。
- 综合效果:启用全部模块性能最佳,验证了三者在多模态联邦学习中的协同作用。
4.3.3.2 持续更新参数 R 消融实验
- 实验目的:探索公式 (4-5) 中 FedMAC 的历史更新轮次参数 (R) 对性能和计算开销的影响。
- 实验条件:
- 数据集:UCF101、UCI-HAR、CrisisMMD
- 参数:
- 指标:准确率(%)、训练时间(秒)、最大 GPU 内存(MB)
- 结果(表 4-4):

| 数据集 | R | 指标(%) | 训练时间(秒) | GPU 内存(MB) |
|---|---|---|---|---|
| UCF101 | 1 | 71.14 | 372.2 | 1596 |
| 2 | 71.35 | 393.6 | 1608 | |
| 3 | 71.94 | 394.0 | 1618 | |
| 4 | 70.06 | 405.2 | 1622 | |
| 5 | 68.88 | 416.4 | 1626 | |
| UCI-HAR | 1 | 83.71 | 396.0 | 1522 |
| 2 | 83.23 | 402.0 | 1524 | |
| 3 | 84.36 | 405.8 | 1526 | |
| 4 | 82.81 | 408.2 | 1528 | |
| 5 | 82.20 | 427.4 | 1530 | |
| CrisisMMD | 1 | 32.63 | 558.6 | 1382 |
| 2 | 32.58 | 563.0 | 1386 | |
| 3 | 34.05 | 565.4 | 1388 | |
| 4 | 32.20 | 603.8 | 1396 | |
| 5 | 31.98 | 614.2 | 1398 |

- 分析:
- 最佳性能:R=3 时准确率最高(如 CrisisMMD:32.63% → 34.05%)。
- 计算成本:R 增大 → 训练时间和显存占用上升。
- 稳定性与效率权衡:
- 小 R(如 R=1):收敛快,但波动大。
- 大 R(如 R=4,5):更稳定,但性能下降、计算负担重。
- R=3 是性能与成本的最佳平衡点,尤其适合 CrisisMMD 等复杂数据集。
4.3.4 稳定性实验
考察 FSM 特征融合与 FedMAC 聚合在不同客户端参与率、客户端数量、以及狄利克雷划分条件下的稳定性与鲁棒性。其余训练配置同前文一致。
4.3.4.1 客户端参与率稳定性实验
实验设置:
- 客户端参与率 。
- 对比 两种特征融合方式(Attention 与 FSM)和 五种聚合方法(FedAvg、FedProx、FedRS、FedOpt、FedMAC)。
- 数据集:UCF101、UCI-HAR、CrisisMMD。
- 评估指标:UCF101 使用 准确率 (Accuracy),UCI-HAR 与 CrisisMMD 使用 F1 分数。
实验结果

表 4-5 UCF101 数据集在不同客户端参与率下的准确率 (%) 表现
| 特征融合方式 | 聚合方法 | ρ=0.3 | ρ=0.5 | ρ=0.7 | ρ=1.0 |
|---|---|---|---|---|---|
| Attention | FedAvg | 61.23 | 64.47 | 66.88 | 67.99 |
| FedProx | 60.92 | 64.42 | 66.56 | 65.25 | |
| FedRS | 59.03 | 61.55 | 60.81 | 64.40 | |
| FedOpt | 69.40 | 70.70 | 70.83 | 70.85 | |
| FedMAC | 71.27 | 71.84 | 71.27 | 72.05 | |
| FSM | FedAvg | 61.96 | 65.74 | 67.80 | 68.30 |
| FedProx | 67.93 | 65.48 | 68.52 | 68.78 | |
| FedRS | 61.32 | 63.13 | 63.45 | 64.72 | |
| FedOpt | 70.70 | 71.53 | 71.27 | 71.31 | |
| FedMAC | 71.79 | 71.99 | 72.68 | 72.10 |

表 4-6 UCI-HAR 数据集在不同客户端参与率下的 F1 (%) 表现
| 特征融合方式 | 聚合方法 | ρ=0.3 | ρ=0.5 | ρ=0.7 | ρ=1.0 |
|---|---|---|---|---|---|
| Attention | FedAvg | 75.99 | 77.42 | 78.56 | 78.11 |
| FedProx | 77.03 | 77.34 | 77.29 | 77.76 | |
| FedRS | 72.86 | 70.37 | 73.17 | 72.01 | |
| FedOpt | 79.38 | 81.03 | 80.84 | 80.86 | |
| FedMAC | 82.35 | 82.64 | 82.05 | 82.75 | |
| FSM | FedAvg | 80.42 | 79.71 | 79.91 | 79.56 |
| FedProx | 80.32 | 79.49 | 79.43 | 79.33 | |
| FedRS | 75.57 | 75.24 | 76.04 | 75.14 | |
| FedOpt | 81.22 | 84.07 | 83.76 | 81.86 | |
| FedMAC | 83.11 | 86.82 | 86.80 | 85.74 |

表 4-7 CrisisMMD 数据集在不同客户端参与率下的 F1 (%) 表现
| 特征融合方式 | 聚合方法 | ρ=0.3 | ρ=0.5 | ρ=0.7 | ρ=1.0 |
|---|---|---|---|---|---|
| Attention | FedAvg | 12.23 | 12.95 | 10.14 | 10.01 |
| FedProx | 16.64 | 15.57 | 16.61 | 11.96 | |
| FedRS | 8.27 | 10.52 | 9.36 | 12.16 | |
| FedOpt | 30.03 | 30.14 | 30.36 | 30.46 | |
| FedMAC | 30.99 | 31.88 | 31.61 | 31.74 | |
| FSM | FedAvg | 27.64 | 29.70 | 24.62 | 28.98 |
| FedProx | 28.17 | 30.19 | 26.37 | 29.36 | |
| FedRS | 29.97 | 30.87 | 25.76 | 26.80 | |
| FedOpt | 30.69 | 31.24 | 31.47 | 30.70 | |
| FedMAC | 34.21 | 32.58 | 32.21 | 32.00 |
结论分析
- UCF101 数据集:准确率随参与率 增加呈稳定上升趋势。FSM + FedMAC 组合达到最佳表现,说明 FSM 对视频数据复杂特征关系的建模更优。
- UCI-HAR 数据集:以 F1 分数为准,FSM 融合表现优于 Attention,特别是与 FedMAC 结合时性能最佳,显示其对时序数据的鲁棒性。
- CrisisMMD 数据集:FSM + FedMAC 在所有参与率下均优于其它组合,尤其在高参与率下保持优势,证明其在处理强异构多模态数据时的稳定性和泛化能力。
综合结论:
- FSM 融合方法整体优于 Attention,特别适用于异构性强或任务复杂度高的多模态场景(如 CrisisMMD)。
- FedMAC 在大多数情况下取得最优结果,在高参与率 () 时优势更明显,表明其在大型联邦系统中的可扩展性与稳定性。
- 部分算法(如 FedAvg、FedProx)在 CrisisMMD 高参与率下性能反而下降,说明其对模态偏移数据的聚合能力较弱。
4.3.4.2 客户端数量稳定性实验
实验设置:
- 数据集:UCF101、CrisisMMD。
- 数据划分:狄利克雷分布参数设为 ,划分为 和 个客户端,以模拟更高异构性情境下的数据分布特征。
- 参与率:。
- 通信轮次:200。
- 数据分布可视化结果见 图 4-10(客户端数据样本类别分布)。

- 实验结果见 表 4-8。
实验结果

表 4-8 改变客户端数量稳定性实验
| 特征融合方式 | 聚合方法 | UCF101 Acc (%) N=10 | UCF101 Acc (%) N=50 | CrisisMMD F1 (%) N=10 | CrisisMMD F1 (%) N=50 |
|---|---|---|---|---|---|
| Attention | FedAvg | 66.67 | 53.45 | 11.00 | 15.59 |
| FedProx | 68.35 | 54.48 | 15.55 | 18.22 | |
| FedRS | 69.14 | 59.92 | 11.50 | 19.13 | |
| FedOpt | 66.77 | 66.98 | 16.87 | 20.94 | |
| FedMAC | 70.94 | 69.07 | 21.61 | 29.12 | |
| FSM | FedAvg | 68.81 | 56.83 | 15.98 | 17.74 |
| FedProx | 69.86 | 58.77 | 17.08 | 23.57 | |
| FedRS | 70.09 | 58.71 | 15.73 | 16.50 | |
| FedOpt | 68.03 | 68.18 | 17.61 | 27.37 | |
| FedMAC | 71.19 | 70.32 | 23.32 | 30.78 |
结论分析
- FSM + FedMAC 表现最优: 在 UCF101 与 CrisisMMD 两个数据集上,不论客户端数量为 10 还是 50,FSM 与 FedMAC 的组合均保持了较高的稳定性和适应性。
- 客户端数量增加对性能的影响有限:
- UCF101:准确率未显著下降。
- CrisisMMD:F1 得分随客户端数量增加甚至有所提升,说明 FedMAC 聚合策略能有效应对因客户端数量增加而带来的数据异构性挑战。
- Attention 融合方法对客户端数量敏感: FedAvg 和 FedRS 在客户端数量增加时性能波动较大,表明它们难以在大量客户端场景下有效处理模态偏移 Non-IID 数据,表现出不稳定性。
- 综合结论:
- FSM 特征融合方式结合 FedMAC 聚合策略在不同客户端数量条件下展现出 最佳性能与最小波动性。
- 该组合在应对 多客户端、多模态任务 时具有较强的适应性和稳定性,为大规模联邦学习提供了可靠支持。
4.3.4.3 不同模态偏移程度稳定性实验
实验设置:
- 通过调节狄利克雷分布参数 控制客户端数据分布的异质性。
- 参数范围:。
- 较小时:数据分布高度不均衡,表现出强烈的 Non-IID 特性。
- 较大时:数据分布更趋均衡,客户端差异减小,接近 IID。
- 实验结果列于 表 4-9 至 表 4-11。
实验结果

表 4-9 UCF101 数据集在不同分布下的准确率 (%) 表现
| 特征融合方式 | 聚合方法 | β=0.1 | β=0.3 | β=0.5 | β=0.7 | β=1.0 |
|---|---|---|---|---|---|---|
| Attention | FedAvg | 40.90 | 49.50 | 26.95 | 26.23 | 17.39 |
| FedProx | 38.46 | 46.89 | 26.01 | 24.38 | 17.27 | |
| FedRS | 32.86 | 44.74 | 27.89 | 28.65 | 19.00 | |
| FedOpt | 63.84 | 68.67 | 64.09 | 67.61 | 67.03 | |
| FedMAC | 65.31 | 69.46 | 67.97 | 69.96 | 68.76 | |
| FSM | FedAvg | 49.07 | 56.67 | 56.75 | 53.81 | 53.06 |
| FedProx | 48.46 | 58.03 | 56.86 | 53.14 | 54.54 | |
| FedRS | 40.69 | 51.44 | 54.11 | 50.46 | 53.09 | |
| FedOpt | 67.29 | 69.39 | 68.98 | 68.45 | 69.34 | |
| FedMAC | 71.14 | 70.59 | 70.32 | 70.56 | 71.11 |

表 4-10 UCI-HAR 数据集在不同分布下的 F1 (%) 表现
| 特征融合方式 | 聚合方法 | β=0.1 | β=0.3 | β=0.5 | β=0.7 | β=1.0 |
|---|---|---|---|---|---|---|
| Attention | FedAvg | 76.30 | 76.89 | 78.08 | 78.82 | 78.53 |
| FedProx | 74.86 | 78.58 | 77.98 | 78.44 | 78.27 | |
| FedRS | 74.60 | 74.27 | 78.32 | 78.16 | 77.90 | |
| FedOpt | 79.38 | 80.47 | 80.77 | 80.31 | 78.36 | |
| FedMAC | 81.65 | 81.94 | 81.54 | 81.28 | 81.04 | |
| FSM | FedAvg | 77.09 | 79.04 | 78.49 | 78.97 | 79.43 |
| FedProx | 77.84 | 77.78 | 78.23 | 78.89 | 78.81 | |
| FedRS | 77.75 | 76.22 | 79.97 | 78.61 | 79.41 | |
| FedOpt | 81.31 | 79.90 | 81.68 | 81.42 | 80.44 | |
| FedMAC | 83.71 | 82.27 | 82.00 | 82.19 | 82.28 |

表 4-11 CrisisMMD 数据集在不同分布下的 F1 (%) 表现
| 特征融合方式 | 聚合方法 | β=0.1 | β=0.3 | β=0.5 | β=0.7 | β=1.0 |
|---|---|---|---|---|---|---|
| Attention | FedAvg | 10.43 | 23.53 | 30.93 | 34.21 | 36.16 |
| FedProx | 8.61 | 22.78 | 31.21 | 34.05 | 36.62 | |
| FedRS | 8.01 | 20.91 | 30.45 | 35.85 | 36.97 | |
| FedOpt | 26.36 | 31.41 | 32.28 | 36.74 | 37.57 | |
| FedMAC | 29.47 | 32.75 | 34.83 | 38.21 | 38.48 | |
| FSM | FedAvg | 19.36 | 25.19 | 31.43 | 35.63 | 37.41 |
| FedProx | 23.70 | 24.27 | 32.56 | 36.62 | 37.44 | |
| FedRS | 17.39 | 25.63 | 30.54 | 37.86 | 38.02 | |
| FedOpt | 28.39 | 32.06 | 33.52 | 38.43 | 38.45 | |
| FedMAC | 32.63 | 33.66 | 35.45 | 38.82 | 40.74 |
结论分析
- UCF101 数据集:
- FedAvg、FedProx、FedRS 在低 (高异质性)时表现较好,但随着 增大趋向 IID,性能反而下降。
- 这是因为在接近 IID 分布时可能出现 神经崩溃 (Neural Collapse) [188] 现象,分类器原型向量和类向量收敛到 单纯形等角紧框架 (ETF) [189] 结构。
- 在 Attention 融合下,这种现象更为明显,导致性能显著下降。
- FSM 融合策略: 有效缓解了神经崩溃问题,在趋近 IID 分布时依然保持稳定性。
- FedOpt 与 FedMAC: 在不同 值下展现出显著的鲁棒性,在高度异质性与接近 IID 的条件下均能保持高性能。特别是 FedMAC 在所有 设置下表现最优,说明其能有效应对复杂数据异质性挑战。
- UCI-HAR 与 CrisisMMD 数据集: 未出现神经崩溃现象。FedMAC 在两个数据集上的 F1 分数均明显优于其他方法,并且在结合 FSM 融合后达到了最优结果。
综合结论:
- 在多模态联邦学习中,数据分布趋近 IID 时并不总能带来性能提升,可能因神经崩溃导致性能下降。
- FSM + FedMAC 组合在不同 条件下均展现最佳稳定性和适应性,是应对模态偏移 Non-IID 挑战的有效方案。
4.3.5 图片模态补全实验
多模态学习的核心挑战之一是缺失模态。本节针对图文数据集在不同图片模态缺失率下进行基准测试,评估缺失处理策略在多模态联邦学习中的有效性。
实验设置
- 缺失率:。
- 融合方法:采用 FSM(见 §4.2.3);其 Mask 结构支持在存在缺失数据时通过掩蔽继续训练。
- 处理方式对比:
- 零填充(Zero Padding) [182]:对缺失位置填 0,并在注意力计算中屏蔽相应数据点(方式 1)。
- 基于扩散模型的缺失图像模态补全算法(方式 2):利用生成式模型推测并补全缺失图像。
- Stable Diffusion 配置(用于方式 2):
- 采样器(Sampler):DPM++ 2M
- 调度类型(Schedule type):Automatic
- 采样步骤(Sampling steps):20
- 生成尺寸:
- 将缺失图片对应的文本内容作为 Prompt 输入
- 示例可视化:CrisisMMD 生成案例见 表 4-12(“Prompt / 原图 / 生成图像”三列示意)。

- 性能展示:趋势图见 图 4-11(不同处理方法的下降率)。

CrisisMMD:不同缺失率下的 F1(%)
表 4-13 模态缺失下不同处理方法的 F1(%)表现

| 缺失数据填充方式 | 聚合方法 | q=0.1 | q=0.2 | q=0.3 | q=0.4 | q=0.5 |
|---|---|---|---|---|---|---|
| 零填充 | FedAvg | 15.53 | 15.43 | 12.99 | 10.77 | 9.15 |
| FedProx | 12.61 | 11.35 | 10.41 | 10.03 | 9.82 | |
| FedRS | 13.28 | 13.30 | 11.05 | 10.77 | 9.00 | |
| FedOpt | 26.99 | 24.60 | 21.36 | 20.81 | 18.10 | |
| FedMAC | 31.07 | 29.92 | 27.99 | 26.00 | 23.26 | |
| 基于扩散模型的缺失图像模态补全算法 | FedAvg | 12.94 | 13.20 | 14.25 | 14.51 | 14.90 |
| FedProx | 12.93 | 12.38 | 14.01 | 13.92 | 15.13 | |
| FedRS | 9.73 | 10.11 | 13.24 | 15.22 | 16.23 | |
| FedOpt | 16.94 | 17.24 | 23.15 | 25.71 | 27.04 | |
| FedMAC | 21.60 | 23.57 | 29.36 | 30.49 | 31.16 |
观察:
- 零填充在所有方法中随缺失率升高明显下降,说明其应对高缺失率较弱。
- 扩散模型补全在低缺失率()时整体不如零填充,但在高缺失率()时显著优于零填充;其中 FedMAC 受益最明显。
Oxford-IIIT Pet:生成文本 + 扩散补全
- 该数据集缺少文本提示,使用 GIT 模型 [185] 为每幅图像生成与类别一致的文本描述,构建图文对(示意见 表 4-14:“Prompt / 原图 / 生成图像”)。

- 训练/测试划分:8:2;以狄利克雷分布()将训练集划分为 100 个客户端,客户端参与率 0.1,共 100 轮。
- 为降低文本模态对融合的干扰,在 MobileBERT 提取的文本特征上以 0.1 概率添加噪声,引导网络关注缺失图像模态影响。
表 4-15 模态缺失下不同处理方法的 F1(%)表现

| 缺失数据填充方式 | 聚合方法 | q=0.1 | q=0.2 | q=0.3 | q=0.4 | q=0.5 |
|---|---|---|---|---|---|---|
| 零填充 | FedAvg | 99.29 | 96.51 | 96.19 | 94.97 | 93.35 |
| FedProx | 98.12 | 96.43 | 95.37 | 94.16 | 93.82 | |
| FedRS | 98.27 | 96.74 | 95.66 | 93.56 | 93.08 | |
| FedOpt | 99.40 | 98.52 | 96.43 | 95.99 | 95.13 | |
| FedMAC | 99.62 | 98.85 | 96.89 | 96.29 | 96.04 | |
| 基于扩散模型的缺失图像模态补全算法 | FedAvg | 99.56 | 99.20 | 99.40 | 99.52 | 99.56 |
| FedProx | 99.32 | 99.46 | 99.59 | 99.43 | 99.52 | |
| FedRS | 99.23 | 99.24 | 99.29 | 99.22 | 99.27 | |
| FedOpt | 99.83 | 99.84 | 99.75 | 99.45 | 99.56 | |
| FedMAC | 99.94 | 99.86 | 99.86 | 99.94 | 99.94 |
观察:
- 在所有设定下,方式 2(扩散补全)均优于方式 1(零填充),呈现一致且显著的性能提升,表明生成图像具备良好泛化性并能在不同聚合方法中稳定增益。
结论
- 零填充:实现简单,但在高缺失率场景下性能下降显著。
- 扩散模型补全:
- 在 高缺失率 时优势明显,显著提升稳定性与性能;
- 在 CrisisMMD 与 Oxford-IIIT Pet 上均验证了有效性;
- 与 FedMAC 结合效果最优。
- 总体而言,基于 Stable Diffusion 的缺失图像模态补全算法是应对模态缺失 + 模态偏移 Non-IID 环境的有效策略,可显著增强多模态联邦学习的稳健性与适应性。
4.4 本章小结
本章围绕多模态联邦学习环境下的完全多模态偏移问题展开研究。面对不同客户端在数据模态与分布上的显著差异所带来的挑战(训练稳定性差、模型融合能力不足、以及模态缺失),本章提出并验证了如下方案:
- 方法方面
- 提出基于自注意力机制的联邦多模态特征融合模块,以提升多模态数据融合的准确性。
- 提出多模态联邦学习自适应持续更新算法,增强模型在异构场景下的稳定性。
- 引入 Stable Diffusion,提出基于扩散模型的图像模态补全算法:利用文本提示生成缺失的图像模态数据,以缓解模态缺失并提高不完整模态场景下的适应能力。
- 实验结论
- 所提出方法有效缓解因模态偏移导致的训练不稳定问题。
- 显著提升了多模态数据融合能力与模型的持续学习能力。
部分信息可能已经过时









