详情介绍
本发明涉及一种基于联邦学习的高效设备选择与资源分配方法,属于移动通信领域,包括以下步骤:S1:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络参数,并按照学习步骤进行更新,实例化经验回放池;S2:部署体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:在参数更新阶段,协调边缘智能体,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
交易流程
安全保障