← 返回列表

一种视频通信资源分配决策方法及系统

申请号: CN202311815947.3
申请人: 西安电子科技大学广州研究院; 广州通则康威科技股份有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种视频通信资源分配决策方法及系统
专利类型 发明申请
申请号 CN202311815947.3
申请日 2023/12/26
公告号 CN117768451A
公开日 2024/3/26
IPC主分类号 H04L65/752
权利人 西安电子科技大学广州研究院; 广州通则康威科技股份有限公司
发明人 牛冠冲; 贺国栋; 李晓辉; 黄振江; 颜斌
地址 广东省广州市黄埔区中新知识城海丝中心B5、B6、B7栋; 广东省广州市南沙区香江金融商务中心南沙街金隆37号1301房(仅限办公)

摘要文本

西安电子科技大学广州研究院; 广州通则康威科技股份有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种视频通信资源分配决策方法及系统,包括:以预期回报值最大为目标,构建智能体;将从经验缓冲区中抽取的多个经验样本作为学习样本,并根据各个学习样本对应的多步回报值,计算得到各个学习样本的时间差分误差;基于各个学习样本的时间差分误差,更新经验缓冲区中的所有经验样本对应的预期回报值,并为所有学习样本分配抽样优先级,以完成对智能体的优化;实时获取系统状态,并通过完成优化的智能体,获取当前时刻的最佳行动策略,并基于最佳行动策略,实现网络通信资源的分配。采用本发明实施例,实时地适应网络的动态变化,选择使得预期回报值最大的最佳行动策略,以提升网络通信资源的分配效果。

专利主权项内容

1.一种视频通信资源分配决策方法,其特征在于,包括:以预期回报值最大为目标,构建智能体;其中,所述预期回报值是由传输至接收端的视频数据的通信指标转化得到的;将从经验缓冲区中抽取的多个经验样本作为学习样本,并根据各所述学习样本对应的多步回报值,计算得到各所述学习样本的时间差分误差;其中,各所述学习样本包括所述智能体在不同系统状态下执行不同行动而获得的预期回报值、以及所述智能体在不同系统状态下执行不同行动而转移到的状态,所述学习样本对应的多步回报值是所述智能体从不同系统状态开始执行不同的多步行动而得到预期回报值中的最大值;基于各所述学习样本的时间差分误差,更新所述经验缓冲区中的所有经验样本对应的预期回报值,并为所有所述学习样本分配抽样优先级,以完成对所述智能体的优化;实时获取系统状态,并通过完成优化的智能体,获取当前时刻的最佳行动策略,并基于所述最佳行动策略,实现网络通信资源的分配。