← 返回列表
用于混合领域的成分句法分析方法、装置及介质
摘要文本
本申请提供了一种用于混合领域的成分句法分析方法、装置及介质,所述成分句法分析方法包括:利用至少包含第一领域和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务对预训练语言模型进行训练,以得到第一语言模型,其中,第一训练数据集中的训练数据具有针对各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务对训练好的第一语言模型进行补充训练以得到成分句法分析器,并用于第一领域和第二领域的文本序列的成分句法分析。本申请在部分领域标注数据缺乏甚至缺失的情况下,仍能使成分句法分析器具有较好的领域泛化能力,且具有较高的成分句法解析精确度。
申请人信息
- 申请人:西湖大学
- 申请人地址:310030 浙江省杭州市西湖区墩余路600号
- 发明人: 西湖大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 用于混合领域的成分句法分析方法、装置及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410049989.9 |
| 申请日 | 2024/1/15 |
| 公告号 | CN117574878A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06F40/211 |
| 权利人 | 西湖大学 |
| 发明人 | 白雪峰; 张岳 |
| 地址 | 浙江省杭州市西湖区墩余路600号 |
专利主权项内容
1.一种用于混合领域的成分句法分析方法,其特征在于,包括:利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务,对预训练语言模型进行训练,以得到训练好的第一语言模型,其中,所述第一训练数据集中的训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器;利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。