← 返回列表

领域新词提取方法、装置、电子设备及存储介质

申请号: CN202311564031.5
申请人: 北京麦麦趣耕科技有限公司
申请日期: 2023/11/22

摘要文本

本发明提供一种领域新词提取方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取待进行领域新词提取的目标文本数据;将目标文本数据输入到领域新词提取模型中,得到由领域新词提取模型输出的目标文本数据中各个目标词语作为领域新词的新词概率,其中,领域新词提取模型是由标记有领域新词标签的样本文本数据,对自然语言处理模型进行训练得到的;根据各个目标词语的新词概率,从多个目标词语中确定候选领域新词;根据各个候选领域新词在目标文本数据中的共现关系,构建领域新词图模型;根据领域新词图模型,从多个候选领域新词中确定目标领域新词。本发明更为准确地提取文本中的领域新词。

专利详细信息

项目 内容
专利名称 领域新词提取方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202311564031.5
申请日 2023/11/22
公告号 CN117610552A
公开日 2024/2/27
IPC主分类号 G06F40/279
权利人 北京麦麦趣耕科技有限公司
发明人 姚明磊; 李楠; 孙奥; 翟斗号; 刘家林
地址 北京市朝阳区光华路22号6层2单元708

专利主权项内容

1.一种领域新词提取方法,其特征在于,包括:获取待进行领域新词提取的目标文本数据;将所述目标文本数据输入到领域新词提取模型中,得到由所述领域新词提取模型输出的所述目标文本数据中各个目标词语作为领域新词的新词概率,其中,所述领域新词提取模型是由标记有领域新词标签的样本文本数据,对自然语言处理模型进行训练得到的;根据各个所述目标词语的所述新词概率,从多个所述目标词语中确定候选领域新词;根据各个所述候选领域新词在所述目标文本数据中的共现关系,构建领域新词图模型;根据所述领域新词图模型,从多个所述候选领域新词中确定目标领域新词。