标点符号恢复方法、装置、电子设备及存储介质
申请人信息
- 申请人:新声科技(深圳)有限公司; 深圳市人民医院
- 申请人地址:518102 广东省深圳市宝安区西乡街道盐田社区银田工业区B2栋G315
- 发明人: 新声科技(深圳)有限公司; 深圳市人民医院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 标点符号恢复方法、装置、电子设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311375497.0 |
| 申请日 | 2023/10/23 |
| 公告号 | CN117113941B |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06F40/166 |
| 权利人 | 新声科技(深圳)有限公司; 深圳市人民医院 |
| 发明人 | 周月辉; 赵雷; 田维政 |
| 地址 | 广东省深圳市宝安区西乡街道盐田社区银田工业区B2栋G315; 广东省深圳市罗湖区东门北路1017号 |
摘要文本
新声科技(深圳)有限公司; 深圳市人民医院取得“一种透气窗帘布”专利技术,本申请涉及一种标点符号恢复方法、装置、电子设备及存储介质,方法包括:获取待恢复文本,并对所述待恢复文本进行分词处理,得到包含多个词语的分词文本;所述待恢复文本不具有标点符号;在所述分词文本中的每两个词语之间插入第一标识符,得到插入文本;将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果;根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,得到目标文本;所述目标文本具有标点符号。由此可以实现实现了提高标点符号恢复的效率和准确率。
专利主权项内容
1.一种标点符号恢复方法,其特征在于,所述方法包括:获取待恢复文本,并对所述待恢复文本进行分词处理,得到包含多个词语的分词文本;所述待恢复文本不具有标点符号;在所述分词文本中的每两个词语之间插入第一标识符,得到插入文本;将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果;根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,得到目标文本;所述目标文本具有标点符号;所述将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果,包括:通过所述标点预测模型对所述插入文本进行向量特征提取,得到所述插入文本中每一所述第一标识符对应的第一向量特征;对每一所述第一标识符对应的所述第一向量特征进行降维处理,得到所述第一标识符对应的第二向量特征;对所述第二向量特征进行归一化处理,得到所述第一标识符对应的标点符号预测集合;所述标点符号预测集合包括至少一个标点符号,且一个所述标点符号对应一个概率值;将所述标点符号预测集合中概率值最大的标点符号确定为所述第一标识符的第一预测结果;所述根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,包括:确定所述第一预测结果对应的概率值是否大于预设概率阈值;在所述第一预测结果对应的概率值小于或等于所述预设概率阈值的情况下,确定所述第一标识符为特殊标识符;确定所述特殊标识符之前是否存在预设的特殊标点符号;在所述特殊标识符之前存在所述特殊标点符号的情况下,对所述特殊标点符号与所述特殊标识符之间的文本进行情感分析,确定所述特殊标识符对应的特殊标点符号;在所述特殊标识符之前不存在所述特殊标点符号的情况下,对所述特殊标识符之前的全部文本进行情感分析,确定所述特殊标识符对应的特殊标点符号。