一种专题语料发现新词的方法及系统
摘要文本
本发明公开一种专题语料发现新词的方法及系统。专题语料发现新词的方法包括:S1、收集语料,对不同专题的语料进行分类、清洗;S2、获取候选词集:对清洗后的语料数据进行分段处理;将语句集输入到nagao算法模型中;基于规则库获得候选新词;利用句法依存关系扩展组合成为候选新词;将语句集输入到GECToR语法纠错算法中进行纠错,提取出候选新词;S3、过滤候选词,过滤方法包括:设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库;常用词或专题领域词或禁用词过滤;包括预设词长度限制过滤、常用词过滤、句法依存关系过滤;S4、过滤后的候选词添加至专题领域词库中。
申请人信息
- 申请人:大汉软件股份有限公司
- 申请人地址:210042 江苏省南京市玄武区玄武大道699-40号徐庄实训中心
- 发明人: 大汉软件股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种专题语料发现新词的方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410197363.2 |
| 申请日 | 2024/2/22 |
| 公告号 | CN117763153A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 大汉软件股份有限公司 |
| 发明人 | 鲁战利; 金震宇; 李杰 |
| 地址 | 江苏省南京市玄武区玄武大道699-40号徐庄实训中心 |
专利主权项内容
1.一种专题语料发现新词的方法,其特征在于,包括如下步骤:S1、得到语料集:收集语料,对不同专题的语料进行分类;并对语料数据进行清洗;S2、获取候选词集:对清洗后的语料数据进行分段处理,得到一批语句集;将语句集输入到nagao算法模型中,生成多个候选词语;基于规则库获得候选新词;利用句法依存关系扩展组合成为候选新词;将语句集输入到GECToR语法纠错算法中进行纠错,从获得的纠错建议中提取出候选新词;纠错方法为:首先,语句集原文文本Text经过深度学习模型GECToR计算获得预测文本;其次,将预测文本经过屏蔽误纠层减少其中的误纠情况,得到结果文本;最后通过流畅度对比模型比较原文文本与结果文本的流畅度,选择原文文本与结果文本中流畅度较高的句子作为最后的结果;S3、过滤候选词,过滤方法包括:设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库;若候选词已经存在于常用词库或专题领域词库或禁用词库中,则进行过滤;预设词长度限制过滤:词长度阈值为2-10;常用词过滤:利用分词器进行分词,如果分词器对候选词分词分出两个及以上个数的词汇,则表示该候选词在词典中没有作为一个词,进行过滤操作;句法依存关系过滤:利用自然语言处理工具包识别出候选新词的句法依存关系,若候选新词中解析出来存在左附加关系、兼语、并列关系、独立结构,则过滤;S4、过滤后的候选词添加至专题领域词库中。