← 返回列表

一种基于跨域迁移学习的命名实体识别方法和装置

申请号: CN202410090398.6
申请人: 广东省人民医院; 神州医疗科技股份有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种基于跨域迁移学习的命名实体识别方法和装置
专利类型 发明申请
申请号 CN202410090398.6
申请日 2024/1/23
公告号 CN117610574A
公开日 2024/2/27
IPC主分类号 G06F40/295
权利人 广东省人民医院; 神州医疗科技股份有限公司
发明人 梁会营; 白焜太; 林晓兰; 杨雅婷; 梁铭标; 宋佳祥
地址 广东省广州市越秀区中山二路106号; 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室

摘要文本

本申请提供了一种基于跨域迁移学习的命名实体识别方法和装置,所述方法包括:在单独锁定源域命名实体识别模型的每一模型结构层时,基于源域命名实体识别模型的指标分数的变化情况确定出待锁定结构层;基于t‑SNE算法进行关键样本选取,得到训练文本数据;将待锁定结构层锁定,使用训练文本数据对源域命名实体识别模型进行训练,得到目标域命名实体识别模型;将目标域的医学文本数据输入到目标域命名实体识别模型,得到目标域命名实体识别模型对医学文本数据实体识别的结果。通过所述方法和装置,以解决迁移学习时对目标域样本数量的大量需求,实现有效的精准标注,用最少的样本来最大化的提升模型效果,以提升模型对命名实体识别的准确性。 百度搜索专利查询网

专利主权项内容

1.一种基于跨域迁移学习的命名实体识别方法,其特征在于,所述命名实体识别方法包括:获取源域对应的源域文本数据以及源域命名实体识别模型;其中,所述源域命名实体识别模型是预先通过所述源域文本数据训练得到的;在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层;获取目标域对应的目标域文本数据,并基于t-SNE算法对所述源域文本数据和所述目标域文本数据进行关键样本选取,得到训练文本数据;将所述待锁定结构层锁定,使用所述训练文本数据对所述源域命名实体识别模型进行训练,以得到所述目标域对应的目标域命名实体识别模型;将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型,得到所述目标域命名实体识别模型对所述医学文本数据实体识别的结果。 来自: