← 返回列表

实体定位和分类方法、装置、设备及存储介质

申请号: CN202311543190.7
申请人: 之江实验室
申请日期: 2023/11/20

摘要文本

本发明公开了一种实体定位和分类方法、装置、设备及存储介质。本发明将实体识别过程拆分成两步,先单独进行BIO标签预测而不考虑实体,再对BIO序列重新补充实体名,能够提高模型的预测性能,对于相似实体也能够达到可观的预测精度。通过多线程技术,本发明的模型可以训练较大批量的训练集,模型的召回率和准确率均高于简单使用BERT+CRF的实体识别模型。本发明对实体定位模型采取奇偶轮交替训练的策略时,能够更好的召回实体。 来源:马 克 团 队

专利详细信息

项目 内容
专利名称 实体定位和分类方法、装置、设备及存储介质
专利类型 发明申请
申请号 CN202311543190.7
申请日 2023/11/20
公告号 CN117574901A
公开日 2024/2/20
IPC主分类号 G06F40/295
权利人 之江实验室
发明人 张莹; 阮彤; 吴晓炜; 姚紫城; 李劲松
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

专利主权项内容

1.一种实体定位和分类方法,其特征在于,包括以下步骤:S1,获取原始文本,使用数据生成器预处理文本,得到不同批次的训练数据,所述训练数据包括令牌序列、切割序列、掩码输入序列和CRF序列四个向量;S2,构建并训练实体定位模型,用于识别实体位置;所述实体定位模型由Transformer+Dense+CRF+Lambda层依次连接组成,将训练数据输入实体定位模型,根据每个字的输出得分分别预测为None、B-、I-和O四种类型,输出识别出的BIO序列;S3,构建并训练实体分类模型,用于识别实体的具体类型;所述实体分类模型由Transformer+RangeMask+MaskMean+Dense层依次连接组成,将S2输出的BIO序列输入实体分类模型,输出被预测为B-、I-的实体的具体类型;S4,将待预测文本输入训练好的实体定位模型和实体分类模型,得到预测结果。