← 返回列表
基于主动学习的文本标记方法、装置、设备和存储介质
申请人信息
- 申请人:腾讯科技(深圳)有限公司
- 申请人地址:518044 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 发明人: 腾讯科技(深圳)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于主动学习的文本标记方法、装置、设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410053934.5 |
| 申请日 | 2024/1/15 |
| 公告号 | CN117828088A |
| 公开日 | 2024/4/5 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 腾讯科技(深圳)有限公司 |
| 发明人 | 罗云; 杨振; 孟凡东 |
| 地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦35层 |
摘要文本
本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提供一种基于主动学习的文本标记方法、装置、设备和存储介质,用于提高文本标记的准确性和效率。该方法基于文本样本池对文本分类模型进行迭代训练时,除了使用标记文本本身外,还使用了预先标注的表征文本与标签间的因果关系的真实解释,使模型准确理解文本的深层语义信息,减少模型对文本表面语义含义的依赖,提高标签预测的泛化性和准确性;同时,还利用了各标记文本的真实解释和相应的评估值产生的损失,使模型能够准确对解释进行评估,以便选取出类别信息量较为丰富的多个候选文本进行标注,从而提高文本类别的丰富性同时降低标注占用的资源,提升文本标注效率。
专利主权项内容
1.一种基于主动学习的文本标记方法,其特征在于,所述方法包括:基于预先构建的文本样本池对文本分类模型进行多轮迭代训练;其中,所述文本样本池包含标记文本子集和未标记文本子集,以及,每次迭代训练包括:针对选取的多个标记文本,分别执行以下操作:采用所述文本分类模型,基于所述标记文本的文本特征,获得所述标记文本的预测文本标签;基于获得的各预测文本标签,结合预先标注的各真实文本标签、各真实解释和相应的评估值,计算分类损失,其中,每个解释用于表征标签与文本间的因果关系;根据所述分类损失调整所述文本分类模型的参数,采用调整后的文本分类模型,获得选取的多个未标记文本各自的预测文本标签和预测解释,并基于各预测文本标签和各预测解释,从所述多个未标记文本中筛选出多个待标记的候选文本,以更新所述标记文本子集和未标记文本子集。