← 返回列表
文本分类标注方法、装置、电子设备和存储介质
申请人信息
- 申请人:广州方舟信息科技有限公司
- 申请人地址:510700 广东省广州市黄埔区天泰一路2号4栋206-208房
- 发明人: 广州方舟信息科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文本分类标注方法、装置、电子设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311528176.X |
| 申请日 | 2023/11/15 |
| 公告号 | CN117574146A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06F18/214 |
| 权利人 | 广州方舟信息科技有限公司 |
| 发明人 | 谢方敏; 周峰; 郭陟; 林昱榕 |
| 地址 | 广东省广州市黄埔区天泰一路2号4栋206-208房 |
摘要文本
广州方舟信息科技有限公司获取“一种透气窗帘布”专利技术,本发明公开了一种文本分类标注方法、装置、电子设备和存储介质,包括:获取到已标注类别的丰富分类集合和稀疏分类集合,采用丰富分类集合和稀疏分类集合中的文本训练文本分类模型,将待标注文本输入文本分类模型中得到第一目标类别和概率,将概率小于概率阈值的待标注文本确定为目标待标注文本,响应人工标注操作确定待标注文本的第二目标类别为稀疏分类集合的类别时,将目标待标注文本添加到稀疏分类集合中,在稀疏分类集合中已标注文本的数量小于数量阈值时重训练文本分类模型,本发明无需人工筛选稀疏分类的文本,节省了大量人力,提高了人工标注的效率,提升稀疏分类的文本在已标注的总文本中的比例,使得所标注的文本分布均衡。
专利主权项内容
1.一种文本分类标注方法,其特征在于,包括:获取多个文本分类集合,所述文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合;采用所述丰富分类集合和所述稀疏分类集合中的训练文本分类模型;获取待标注文本集合,并将所述待标注文本集合中的待标注文本输入所述文本分类模型中,得到所述待标注文本的第一目标类别和概率;确定目标待标注文本,并响应针对所述目标待标注文本的人工标注操作,确定所述待标注文本的第二目标类别,所述目标待标注文本至少包括概率小于预设概率阈值的待标注文本;在所述第二目标类别为所述稀疏分类集合的类别时,将所述目标待标注文本添加到所述稀疏分类集合中;判断所述稀疏分类集合中已标注文本的数量是否大于数量阈值;若是,结束文本分类标注;若否,返回采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型的步骤。