← 返回列表

基于长短时记忆网络的语义分析方法及系统

申请号: CN202410077058.X
申请人: 卓世未来(天津)科技有限公司
申请日期: 2024/1/19

摘要文本

本发明涉及语义分析技术领域,具体涉及基于长短时记忆网络的语义分析方法及系统,该方法包括:通过收集不同各歧义词不同义项的语料构建各歧义词的语料库;根据各语句各词语在各义项中出现的频率构建词语在义项中的特征词权重;根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重得到语句的歧义性;根据语句中词语与歧义词之间的距离、词语在义项中的特征词权重以及语句的歧义性得到语句的义项特征向量;根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵;根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类。本发明准确反映了语句与歧义词之间的关系,同时能够处理长文本内容的语义消歧。

专利详细信息

项目 内容
专利名称 基于长短时记忆网络的语义分析方法及系统
专利类型 发明申请
申请号 CN202410077058.X
申请日 2024/1/19
公告号 CN117610579A
公开日 2024/2/27
IPC主分类号 G06F40/30
权利人 卓世未来(天津)科技有限公司
发明人 屠静; 王亚; 赵策; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
地址 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号

专利主权项内容

1.基于长短时记忆网络的语义分析方法,其特征在于,该方法包括以下步骤:通过收集各歧义词不同义项的语料构建各歧义词的语料库,所述语料库包括该歧义词的各义项的语句;对于各歧义词的语料库,对语料库中的各语句进行分词、去停用词操作得到各词语;对于各义项各词语,根据词语在各义项中出现的频率构建词语在义项中的特征词权重系数;将词语在义项中的特征词权重系数与预设放大系数的乘积作为词语在义项中的特征词权重;根据词语在义项中的特征词权重得到义项的义项词汇;根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重构建语句的义项矩阵;根据语句的义项矩阵中各元素的分布情况得到语句的歧义性;对于语句中各词语,根据语句中词语与歧义词之间的距离得到语句中词语的距离权重;根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征;将语句在各义项中的义项特征组成语句的义项特征向量;采用词嵌入技术得到语句中各词语的向量;根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵;根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类。