基于主动学习的文本标记方法、装置、设备和存储介质

申请号: CN202410053934.5

申请人: 腾讯科技(深圳)有限公司

更新日期: 2026-03-17

摘要文本

腾讯科技(深圳)有限公司取得“一种透气窗帘布”专利技术，本申请涉及计算机技术领域，尤其涉及自然语言处理技术领域，提供一种基于主动学习的文本标记方法、装置、设备和存储介质，用于提高文本标记的准确性和效率。该方法基于文本样本池对文本分类模型进行迭代训练时，除了使用标记文本本身外，还使用了预先标注的表征文本与标签间的因果关系的真实解释，使模型准确理解文本的深层语义信息，减少模型对文本表面语义含义的依赖，提高标签预测的泛化性和准确性；同时，还利用了各标记文本的真实解释和相应的评估值产生的损失，使模型能够准确对解释进行评估，以便选取出类别信息量较为丰富的多个候选文本进行标注，从而提高文本类别的丰富性同时降低标注占用的资源，提升文本标注效率。

专利主权项内容

1.一种基于主动学习的文本标记方法，其特征在于，所述方法包括：基于预先构建的文本样本池对文本分类模型进行多轮迭代训练；其中，所述文本样本池包含标记文本子集和未标记文本子集，以及，每次迭代训练包括：针对选取的多个标记文本，分别执行以下操作：采用所述文本分类模型，基于所述标记文本的文本特征，获得所述标记文本的预测文本标签；基于获得的各预测文本标签，结合预先标注的各真实文本标签、各真实解释和相应的评估值，计算分类损失，其中，每个解释用于表征标签与文本间的因果关系；根据所述分类损失调整所述文本分类模型的参数，采用调整后的文本分类模型，获得选取的多个未标记文本各自的预测文本标签和预测解释，并基于各预测文本标签和各预测解释，从所述多个未标记文本中筛选出多个待标记的候选文本，以更新所述标记文本子集和未标记文本子集。

专利申请信息

项目	内容
专利名称	基于主动学习的文本标记方法、装置、设备和存储介质
专利类型	发明申请
申请号	CN202410053934.5
申请日	2024/1/15
公告号	CN117828088A
公开日	2024/4/5
IPC主分类号	G06F16/35
权利人	腾讯科技(深圳)有限公司
发明人	罗云; 杨振; 孟凡东
地址	广东省深圳市南山区高新区科技中一路腾讯大厦35层

基于主动学习的文本标记方法、装置、设备和存储介质

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

基于主动学习的文本标记方法、装置、设备和存储介质

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种异构系统数据同步过程死循环检测方法、系统及介质

输出功率的调整方法及美容仪、存储介质、电子设备

业务访问方法、装置、电子设备及存储介质

基于物联网技术的建筑节能控制方法、装置、设备及介质

一种全量发票查验认证管理方法及系统

基于去中心化联邦学习的差分隐私模型更新方法以及系统

热门技术领域

快速入口

专利技术资料