← 返回列表

一种基于轻量化预训练模型的实体识别方法和装置

申请号: CN202410243608.0
申请人: 北京建筑大学
申请日期: 2024/3/4

摘要文本

本申请提供一种基于轻量化预训练模型的实体识别方法和装置,包括:获取待识别文本;基于搜索引擎检索所述待识别文本的第一文本集;基于所述轻量化预训练模型生成分别与所述待识别文本和所述第一文本集对应的多个特征图谱,一个特征图谱与一个文本对应,所述多个特征图谱的表征方式相同;所述轻量化预训练模型融合所述多个特征图谱,生成所述待识别文本的实体识别结果;其中,所述轻量化预训练模型采用继承生成式预训练BERT的模型结构,并基于所述待识别文本的同领域样本调整模型的参数和权重的训练方式。本申请提供的基于轻量化预训练模型的实体识别方法和装置,可以实现在标注数据十分有限的情况下的命名实体识别任务。

专利详细信息

项目 内容
专利名称 一种基于轻量化预训练模型的实体识别方法和装置
专利类型 发明申请
申请号 CN202410243608.0
申请日 2024/3/4
公告号 CN117829153A
公开日 2024/4/5
IPC主分类号 G06F40/295
权利人 北京建筑大学
发明人 穆彤晖; 李壮举
地址 北京市西城区展览馆路1号

专利主权项内容

1.一种基于轻量化预训练模型的实体识别方法,其特征在于,所述方法包括:获取待识别文本;基于搜索引擎检索所述待识别文本的第一文本集,所述第一文本集与所述待识别文本的语义相似度大于第一阈值;基于所述轻量化预训练模型生成分别与所述待识别文本和所述第一文本集对应的多个特征图谱,一个特征图谱与一个文本对应,所述多个特征图谱的表征方式相同;所述轻量化预训练模型融合所述多个特征图谱,生成所述待识别文本的实体识别结果;其中,所述轻量化预训练模型采用继承生成式预训练BERT的模型结构,并基于所述待识别文本的同领域样本调整模型的参数和权重的训练方式。 微信公众号马克 数据网