一种基于多源域适应和强化学习的众包命名实体识别模型及系统
摘要文本
一种基于多源域适应和强化学习的众包命名实体识别模型及系统,属于众包命名实体识别技术领域。本发明为了解现有的使用域适应模型解决众包问题的方法往往没有充分考虑标注者的可靠性导致低质量标注者的数据对模型训练产生负面影响、以及现有众包命名实体识别方法在处理低质量标注者提交的极低质量数据时存在困难等问题。通过考虑标注者可靠性生成合成的专家表示,并采用基于强化学习的实例选择器丢弃低质量的标注,从而提高命名实体识别模型在众包数据集上的性能,本发明加深了对众包命名实体识别领域适应方法中标注者可靠性的理解,提出了一种基于强化学习的数据预处理实例选择器,并展示了其在解决众包标注中的命名实体识别挑战方面的有效性。本发明用于在无监督众包数据中高效地提取命名实体信息。
申请人信息
- 申请人:哈尔滨工业大学
- 申请人地址:150001 黑龙江省哈尔滨市南岗区西大直街92号
- 发明人: 哈尔滨工业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于多源域适应和强化学习的众包命名实体识别模型及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311442418.3 |
| 申请日 | 2023/11/1 |
| 公告号 | CN117436449A |
| 公开日 | 2024/1/23 |
| IPC主分类号 | G06F40/295 |
| 权利人 | 哈尔滨工业大学 |
| 发明人 | 田泽庶; 张宏莉; 王星; 叶麟 |
| 地址 | 黑龙江省哈尔滨市南岗区西大直街92号 |
专利主权项内容
1.一种基于多源域适应和强化学习的众包命名实体识别模型,其特征在于:所述模型包括众包命名实体识别主模型,众包命名实体识别主模型将多个众包标注者的标注视作多源域,将专家标注视作目标域,其包括以下组件:(1)标注者表示层:用于生成标注者a和专家的表示,并利用标注者和专家的表示通过参数生成网络(PGN)创建参数;所述参数生成网络创建的由标注者的表示得到的参数、由专家的表示得到的参数分别整合到文本表示层的Adapter模块(Adapter中文含义是适配器)中,使得文本表示层具备标注者感知能力;i(2)文本表示层:文本表示层是一种改进的BERT模型,称为Adapter·BERT模型,改进在于BERT模型中的每一个transformer层中加入了Adapter模块;所述改进的BERT模型在训练的过程中的参数冻结不参与训练,只有Adapter模块中的参数参与训练,减少BERT模型的训练参数量与保持原有知识的前提下,让标注者的表示参与Adapter·BERT模型的训练,学习新的知识以提升众包命名实体识别准确率;文本表示层用于接收一个句子X={x}(i=1...n),并利用Adapter·BERT模型将其分别转化为带有标注者信息的文本表示(张量表示)和带有专家信息的文本表示(张量表示);i(3)文本表示距离层:将文本表示层输出的带有标注者信息的文本表示、带有专家信息的文本表示分别作为多源域、目标域;文本表示距离层用于计算多源域和目标域文本表示之间的距离,并将所述距离作为训练损失的一部分;(4)重构层:将文本表示距离层中的带有标注者信息的文本表示重新分类为标注者,防止在优化文本表示距离层中的距离的过程中减弱文本表示的标注者特征;将文本表示距离层中的带有标注者信息的文本表示重新分类为期望的标注者计算a和/>之间的交叉熵损失作为训练损失的一部分,以防止在优化文本表示距离层中的距离的过程中减弱文本表示的标注者特征;i(5)双向长短时记忆网络(BiLSTM)和条件随机场(CRF)层:输入文本表示距离层中的带有标注者信息的文本表示,利用BiLSTM从文本表示中提取上下文特征,利用CRF层的状态特征函数和转移特征函数从BiLSTM的输出中产生序列标记,即预测标签;计算数据集中的众包标签和预测标签之间的交叉熵损失,并将此损失作为训练损失的一部分。 关注微信公众号