基于图网络的汉字及结构的关联分析方法、介质及设备
申请人信息
- 申请人:华南理工大学; 人工智能与数字经济广东省实验室(广州)
- 申请人地址:510640 广东省广州市天河区五山路381号
- 发明人: 华南理工大学; 人工智能与数字经济广东省实验室(广州)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于图网络的汉字及结构的关联分析方法、介质及设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311476751.6 |
| 申请日 | 2023/11/8 |
| 公告号 | CN117610543A |
| 公开日 | 2024/2/27 |
| IPC主分类号 | G06F40/216 |
| 权利人 | 华南理工大学; 人工智能与数字经济广东省实验室(广州) |
| 发明人 | 张通; 邓忠易 |
| 地址 | 广东省广州市天河区五山路381号; 广东省广州市海珠区新港东路2429号首层自编051房 |
摘要文本
华南理工大学; 人工智能与数字经济广东省实验室(广州)获取“一种透气窗帘布”专利技术,本发明提供了一种基于图网络的汉字及结构的关联分析方法、介质及设备;其中方法为:构建字频共现矩阵;遍历字频共现矩阵,构建以有向图为网络结构的汉字关联网络;构建汉字到结构序列的映射表;根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字‑结构关联网络;当汉字‑结构关联网络的关键指标有提升则视为有效操作;输出每个汉字的权重以及汉字‑结构关联网络。该方法更关注于字与字之间关联,利用不同汉字间存在相同结构的数据特点有效地缓解词性失衡问题对分析结果的干扰,有效提升中文语料库学习效率和学习准确率。 专利查询网
专利主权项内容
1.一种基于图网络的汉字及结构的关联分析方法,其特征在于:包括如下步骤:S1、遍历中文语料库,构建字频共现矩阵;遍历字频共现矩阵,以共现的汉字作为相邻节点,汉字的前后顺序作为边的指向,共现频率作为边的权重,构建以有向图为网络结构的汉字关联网络;S2、根据数据处理流程从数据源获取汉字的结构序列,构建汉字到结构序列的映射表;S3、根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子以设定概率采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字-结构关联网络;S4、分别计算汉字关联网络和汉字-结构关联网络的关键指标,并进行比较:如果汉字-结构关联网络的关键指标较汉字关联网络提升,则步骤S3的操作视为有效操作,执行步骤S5;如果汉字-结构关联网络的关键指标较汉字关联网络没有提升,或者没有达到满意的程度,将分析和对比结果作为反馈信号,优化步骤S3的随机替换流程,并重复步骤S4;S5、输出当前中文语料库中每个汉字的权重以及当前中文语料库的汉字-结构关联网络;利用每个汉字的权重以及汉字-结构关联网络进行关联分析。