← 返回列表

用于混合领域的成分句法分析方法、装置及介质

申请号: CN202410049989.9
申请人: 西湖大学
申请日期: 2024/1/15

摘要文本

本申请提供了一种用于混合领域的成分句法分析方法、装置及介质,所述成分句法分析方法包括:利用至少包含第一领域和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务对预训练语言模型进行训练,以得到第一语言模型,其中,第一训练数据集中的训练数据具有针对各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务对训练好的第一语言模型进行补充训练以得到成分句法分析器,并用于第一领域和第二领域的文本序列的成分句法分析。本申请在部分领域标注数据缺乏甚至缺失的情况下,仍能使成分句法分析器具有较好的领域泛化能力,且具有较高的成分句法解析精确度。

专利详细信息

项目 内容
专利名称 用于混合领域的成分句法分析方法、装置及介质
专利类型 发明申请
申请号 CN202410049989.9
申请日 2024/1/15
公告号 CN117574878A
公开日 2024/2/20
IPC主分类号 G06F40/211
权利人 西湖大学
发明人 白雪峰; 张岳
地址 浙江省杭州市西湖区墩余路600号

专利主权项内容

1.一种用于混合领域的成分句法分析方法,其特征在于,包括:利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务,对预训练语言模型进行训练,以得到训练好的第一语言模型,其中,所述第一训练数据集中的训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器;利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。