一种专题语料发现新词的方法及系统

申请号: CN202410197363.2

申请人: 大汉软件股份有限公司

申请日期: 2024/2/22

摘要文本

本发明公开一种专题语料发现新词的方法及系统。专题语料发现新词的方法包括：S1、收集语料，对不同专题的语料进行分类、清洗；S2、获取候选词集：对清洗后的语料数据进行分段处理；将语句集输入到nagao算法模型中；基于规则库获得候选新词；利用句法依存关系扩展组合成为候选新词；将语句集输入到GECToR语法纠错算法中进行纠错，提取出候选新词；S3、过滤候选词，过滤方法包括：设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库；常用词或专题领域词或禁用词过滤；包括预设词长度限制过滤、常用词过滤、句法依存关系过滤；S4、过滤后的候选词添加至专题领域词库中。

申请人信息

申请人:大汉软件股份有限公司
申请人地址:210042 江苏省南京市玄武区玄武大道699-40号徐庄实训中心
发明人: 大汉软件股份有限公司

专利详细信息

项目	内容
专利名称	一种专题语料发现新词的方法及系统
专利类型	发明申请
申请号	CN202410197363.2
申请日	2024/2/22
公告号	CN117763153A
公开日	2024/3/26
IPC主分类号	G06F16/35
权利人	大汉软件股份有限公司
发明人	鲁战利; 金震宇; 李杰
地址	江苏省南京市玄武区玄武大道699-40号徐庄实训中心

专利主权项内容

1.一种专题语料发现新词的方法，其特征在于，包括如下步骤：S1、得到语料集：收集语料，对不同专题的语料进行分类；并对语料数据进行清洗；S2、获取候选词集：对清洗后的语料数据进行分段处理，得到一批语句集；将语句集输入到nagao算法模型中，生成多个候选词语；基于规则库获得候选新词；利用句法依存关系扩展组合成为候选新词；将语句集输入到GECToR语法纠错算法中进行纠错，从获得的纠错建议中提取出候选新词；纠错方法为：首先，语句集原文文本Text经过深度学习模型GECToR计算获得预测文本；其次，将预测文本经过屏蔽误纠层减少其中的误纠情况，得到结果文本；最后通过流畅度对比模型比较原文文本与结果文本的流畅度，选择原文文本与结果文本中流畅度较高的句子作为最后的结果；S3、过滤候选词，过滤方法包括：设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库；若候选词已经存在于常用词库或专题领域词库或禁用词库中，则进行过滤；预设词长度限制过滤：词长度阈值为2-10；常用词过滤：利用分词器进行分词，如果分词器对候选词分词分出两个及以上个数的词汇，则表示该候选词在词典中没有作为一个词，进行过滤操作；句法依存关系过滤：利用自然语言处理工具包识别出候选新词的句法依存关系，若候选新词中解析出来存在左附加关系、兼语、并列关系、独立结构，则过滤；S4、过滤后的候选词添加至专题领域词库中。

一种专题语料发现新词的方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种专题语料发现新词的方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种用于分布式光伏方法发电的优化配置方法及系统

一种靶向热休克蛋白90的特异性肿瘤诊断探针和显像剂

企业数字化运营多维数据分析方法及系统

用于感知网络中边缘节点健康状态的方法、设备和介质

一种音频信息内容识别方法

一种输水隧洞水下检测机器人及使用方法

热门技术领域

快速入口

专利技术资料

特别鸣谢