← 返回列表

基于主动学习的文本标记方法、装置、设备和存储介质

申请号: CN202410053934.5
申请人: 腾讯科技(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 基于主动学习的文本标记方法、装置、设备和存储介质
专利类型 发明申请
申请号 CN202410053934.5
申请日 2024/1/15
公告号 CN117828088A
公开日 2024/4/5
IPC主分类号 G06F16/35
权利人 腾讯科技(深圳)有限公司
发明人 罗云; 杨振; 孟凡东
地址 广东省深圳市南山区高新区科技中一路腾讯大厦35层

摘要文本

本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提供一种基于主动学习的文本标记方法、装置、设备和存储介质,用于提高文本标记的准确性和效率。该方法基于文本样本池对文本分类模型进行迭代训练时,除了使用标记文本本身外,还使用了预先标注的表征文本与标签间的因果关系的真实解释,使模型准确理解文本的深层语义信息,减少模型对文本表面语义含义的依赖,提高标签预测的泛化性和准确性;同时,还利用了各标记文本的真实解释和相应的评估值产生的损失,使模型能够准确对解释进行评估,以便选取出类别信息量较为丰富的多个候选文本进行标注,从而提高文本类别的丰富性同时降低标注占用的资源,提升文本标注效率。

专利主权项内容

1.一种基于主动学习的文本标记方法,其特征在于,所述方法包括:基于预先构建的文本样本池对文本分类模型进行多轮迭代训练;其中,所述文本样本池包含标记文本子集和未标记文本子集,以及,每次迭代训练包括:针对选取的多个标记文本,分别执行以下操作:采用所述文本分类模型,基于所述标记文本的文本特征,获得所述标记文本的预测文本标签;基于获得的各预测文本标签,结合预先标注的各真实文本标签、各真实解释和相应的评估值,计算分类损失,其中,每个解释用于表征标签与文本间的因果关系;根据所述分类损失调整所述文本分类模型的参数,采用调整后的文本分类模型,获得选取的多个未标记文本各自的预测文本标签和预测解释,并基于各预测文本标签和各预测解释,从所述多个未标记文本中筛选出多个待标记的候选文本,以更新所述标记文本子集和未标记文本子集。