一种列车运行控制系统的数据通信系统及方法
摘要文本
本发明属于列车数据通信技术领域,本发明公开了一种列车运行控制系统的数据通信系统及方法;收集无线接入点历史连接数据; 构建连接四元组集合; 利用连接四元组集合训练联合深度强化学习模型;获取列车当前时刻的状态数据; 根据所述列车当前时刻的状态数据构建状态特征向量; 利用策略网络根据状态特征向量实时预测选择动作数据; 将列车应用所述实时预测选择动作数据, 使用价值网络评估当前选择动作数据的价值; 预设策略价值阈值; 若所述价值网络输出的当前时刻的价值低于策略价值阈值, 则触发策略网络重新预测实时选择动作数据, 当前时刻的价值大于或等于策略价值阈值停止预测实时选择动作数据。
申请人信息
- 申请人:成都工业学院
- 申请人地址:610000 四川省成都市花牌坊街2号
- 发明人: 成都工业学院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种列车运行控制系统的数据通信系统及方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202410000926.4 |
| 申请日 | 2024/1/2 |
| 公告号 | CN117485410B |
| 公开日 | 2024/4/2 |
| IPC主分类号 | B61L27/70 |
| 权利人 | 成都工业学院 |
| 发明人 | 蔡方凯; 付宁; 赵婧; 陈思利; 詹伟艺; 王桥梅 |
| 地址 | 四川省成都市花牌坊街2号 |
专利主权项内容
1.一种列车运行控制系统的数据通信方法,其特征在于,包括:S1、收集无线接入点历史连接数据; 根据所述无线接入点历史连接数据构建连接四元组集合; S2、利用连接四元组集合训练联合深度强化学习模型, 联合深度强化学习模型包括策略网络和价值网络; S3、获取列车当前时刻的状态数据; 根据所述列车当前时刻的状态数据构建状态特征向量; 利用策略网络根据状态特征向量实时预测选择动作数据; S4、将列车应用所述实时预测选择动作数据, 并使用价值网络评估当前选择动作数据在当前时刻的价值; S5、预设策略价值阈值; 若所述价值网络输出的当前时刻的价值低于策略价值阈值, 则触发策略网络重新预测实时选择动作数据, 直至当前时刻的价值大于或等于策略价值阈值后停止重新预测实时选择动作数据;根据所述列车当前时刻的状态数据构建状态特征向量;利用策略网络根据状态特征向量实时预测选择动作数据的方式包括:从无线接入点历史连接数据ci中提取初始状态si、选择动作数据ai、多维奖励数据ri和结果状态数据s'i;构建连接四元组集合〔si, ai, ri, s'i〕;S201、使用卷积神经网络或者全连接网络作为基础框架;构建包括策略网络π和价值网络u的联合深度强化学习模型;初始化策略网络π的网络参数θπ;初始化价值网络u的网络参数θu;S202、将连接四元组集合分出b个批次;其中b为大于等于1的整数;随机采样一个批次作为输入样本;将输入样本中的初始状态si输入策略网络π, 根据当前参数θπ生成可选动作的概率分布π(ai|si; θπ);从π(ai|si; θπ)中采样一个动作â, 作为当前预测的选择动作数据;S203、计算当前样本的优势函数A=ri+γ×u(s'i; θu)-u(si; θu);即为策略的价值;其中,u(si; θu)表示在连接前状态si下, 根据当前价值网络的参数θu, 输出对这个状态价值的估计;u(s'i; θu)表示在连接后的状态s'i下, 基于同样的参数θu, 输出对这个后续状态的价值估计;γ为预设的折扣因子;使用策略梯度法更新策略网络的参数,策略梯度法更新公式为:下一代θπ=θπ+απ××π(ai|si; θπ)A;其中,απ为策略网络的学习率;使用均方误差更新价值网络的参数,均方误差更新公式为:下一代θu=θu-αu×(ri+γ×u(s'i; θu)-u(si; θu));2其中,αu为价值网络的学习率;表示损失函数或者模型输出相对于模型参数的梯度;S204、重复步骤S203, 直到策略网络π和价值网络u均收敛为止;获取最终的联合深度强化学习模型;状态数据包括位置状态数据pt、速度状态数据vt和环境状态数据et;定义初始状态特征向量的维度为x;获取当前时刻t的位置状态数据pt, 将位置状态数据pt采用one-hot编码, 映射为长度为m1的位置0-1向量;获取当前时刻的速度状态数据vt, 将速度状态数据vt进行归一化处理, 映射为一个实数;获取当前时刻的环境状态数据et, 将环境状态数据et采用one-hot编码, 映射为长度为m2的环境0-1向量;构建初始状态特征向量xt=[pt, vt, et], 其维度为x=m1+1+m2;将xt输入联合深度强化学习模型;联合深度强化学习模型利用策略网络π, 通过卷积层和全连接层的前向计算, 输出维度为a的向量π(xt; θπ);对π(xt; θπ)应用softmax函数, 获得a个无线接入点的选择概率分布π(a|xt; θπ);从π(a|xt; θπ)中采样1次, 获得预测的无线接入点索引ât;根据索引ât, 获取当前选择动作数据。 (macrodatas.cn)