← 返回列表
文本标注方法、装置、电子设备和存储介质
申请人信息
- 申请人:广州方舟信息科技有限公司
- 申请人地址:510700 广东省广州市黄埔区天泰一路2号4栋206-208房
- 发明人: 广州方舟信息科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文本标注方法、装置、电子设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311489339.8 |
| 申请日 | 2023/11/9 |
| 公告号 | CN117493514A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G06F16/332 |
| 权利人 | 广州方舟信息科技有限公司 |
| 发明人 | 谢方敏; 周峰; 郭陟; 林昱榕 |
| 地址 | 广东省广州市黄埔区天泰一路2号4栋206-208房 |
摘要文本
广州方舟信息科技有限公司获取“一种透气窗帘布”专利技术,本发明公开了一种文本标注方法、装置、电子设备和存储介质,包括:获取每个意图类别的已标注文本集,已标注文本集包括标注了意图类别的第一文本,从待标注文本集提取第二文本输入预训练的文本对生成模型中得到文本对,文本对包括第一文本和第二文本,在接收到文本对的意图类别相同确认操作时,将文本对中第一文本的意图类别标注为第二文本的意图类别,判断是否满足停止标注条件,若否,从已标注文本集和待标注文本集中构建正样本和负样本重训练所述文本对生成模型,并继续对待标注文本集进行标注,无需人工标注文本的意图类别,提高了文本标注的效率,并且通过重训练模型提高文本标注的准确度,所标注的文本可以提高对话机器人的性能。
专利主权项内容
1.一种文本标注方法,其特征在于,用于对训练对话机器人所用的文本标注意图类别,包括:获取每个意图类别的已标注文本集,所述已标注文本集包括标注了意图类别的第一文本;从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对,所述文本对包括第一文本和第二文本;在接收到针对所述文本对的意图类别相同确认操作时,将所述文本对中所述第一文本的意图类别标注为所述第二文本的意图类别;将所述待标注文本集中标注意图类别后的第二文本移除,并将标注意图类别后的第二文本添加到所标注的意图类别对应的已标注文本集中;判断是否满足停止标注条件;若否,从所述已标注文本集和所述待标注文本集中构建正样本和负样本;采用所述正样本和所述负样本重训练所述文本对生成模型,并返回从待标注文本集中提取一个批次的第二文本输入预训练的文本对生成模型中得到文本对。