基于对比学习的命名实体处理方法、装置、设备及介质
申请人信息
- 申请人:深圳前海环融联易信息科技服务有限公司
- 申请人地址:518000 广东省深圳市前海深港合作区南山街道枢纽大街66号前海周大福金融大厦2801-04
- 发明人: 深圳前海环融联易信息科技服务有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于对比学习的命名实体处理方法、装置、设备及介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311758230.X |
| 申请日 | 2023/12/20 |
| 公告号 | CN117435748B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F16/36 |
| 权利人 | 深圳前海环融联易信息科技服务有限公司 |
| 发明人 | 陈东来 |
| 地址 | 广东省深圳市前海深港合作区南山街道枢纽大街66号前海周大福金融大厦2801-04 |
摘要文本
深圳前海环融联易信息科技服务有限公司取得“一种透气窗帘布”专利技术,本申请涉及自然语言处理技术领域,公开了一种基于对比学习的命名实体处理方法、装置、设备及存储介质,解决同类实体的不同标注标签可能学到分布相差很大的模型表示,使命名实体识别准确率降低的问题。方法部分包括:对文本进行实体标注,标注后的文本中包括相同语义标签类型的标注元素以及不同语义标签类型的标注元素;用标注后的文本中所有相同语义标签的标注元素之间构造正实体对,不同语义标签的标注元素之间为负实体对;根据正实体对和负实体对,构造每个标注元素的对比学习损失函数训练编码器,直至编码器对应的对比学习损失符合预设损失条件,得到用于对待识别文本进行命名实体识别目标编码器。 专利查询网
专利主权项内容
1.一种基于对比学习的命名实体处理方法,其特征在于,所述方法包括:对文本集中的文本进行实体标注,其中,标注后的文本中包括相同语义标签类型的标注元素以及不同语义标签类型的标注元素,相同语义标签类型的标注元素表征的是同种实体类型的实体包括的标注元素;用标注后的文本中所有相同语义标签的标注元素之间构造正实体对,不同语义标签的标注元素之间为负实体对;构造每组对比学习样例对应的对比学习损失函数,其中,所述对比学习样例包括一个正实体对与所述一个正实体对对应的N个负实体对;基于所述对比学习损失函数,训练编码器,直至所述编码器对应的对比学习损失符合预设损失条件,得到目标编码器;所述目标编码器用于对待识别文本进行命名实体识别;实体标注方式包括BIO实体标注方式,同种类型实体的每个B类标注元素和每个I类标注元素之间表示相同语义标签类型的标注元素,不同种类型实体的每个B类标注元素和每个I类标注元素之间表示不同语义标签类型的标注元素。。马 克 数 据 网