← 返回列表
实体定位和分类方法、装置、设备及存储介质
摘要文本
本发明公开了一种实体定位和分类方法、装置、设备及存储介质。本发明将实体识别过程拆分成两步,先单独进行BIO标签预测而不考虑实体,再对BIO序列重新补充实体名,能够提高模型的预测性能,对于相似实体也能够达到可观的预测精度。通过多线程技术,本发明的模型可以训练较大批量的训练集,模型的召回率和准确率均高于简单使用BERT+CRF的实体识别模型。本发明对实体定位模型采取奇偶轮交替训练的策略时,能够更好的召回实体。 来源:马 克 团 队
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 实体定位和分类方法、装置、设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311543190.7 |
| 申请日 | 2023/11/20 |
| 公告号 | CN117574901A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06F40/295 |
| 权利人 | 之江实验室 |
| 发明人 | 张莹; 阮彤; 吴晓炜; 姚紫城; 李劲松 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
专利主权项内容
1.一种实体定位和分类方法,其特征在于,包括以下步骤:S1,获取原始文本,使用数据生成器预处理文本,得到不同批次的训练数据,所述训练数据包括令牌序列、切割序列、掩码输入序列和CRF序列四个向量;S2,构建并训练实体定位模型,用于识别实体位置;所述实体定位模型由Transformer+Dense+CRF+Lambda层依次连接组成,将训练数据输入实体定位模型,根据每个字的输出得分分别预测为None、B-、I-和O四种类型,输出识别出的BIO序列;S3,构建并训练实体分类模型,用于识别实体的具体类型;所述实体分类模型由Transformer+RangeMask+MaskMean+Dense层依次连接组成,将S2输出的BIO序列输入实体分类模型,输出被预测为B-、I-的实体的具体类型;S4,将待预测文本输入训练好的实体定位模型和实体分类模型,得到预测结果。