← 返回列表

一种乱码字符调整方法及系统

申请号: CN202311674321.5
申请人: 和元达信息科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种乱码字符调整方法及系统
专利类型 发明授权
申请号 CN202311674321.5
申请日 2023/12/8
公告号 CN117391070B
公开日 2024/3/22
IPC主分类号 G06F40/232
权利人 和元达信息科技有限公司
发明人 王国章; 黄振琳; 王庭飞
地址 广东省广州市海珠区昌岗东路257号之一1906、1907、1908、1909室

摘要文本

和元达信息科技有限公司获取“一种透气窗帘布”专利技术,本发明公开一种乱码字符调整方法及系统,包括:根据各个段落的语言类型,对各个段落分别采用对应的默认编码方式分别进行一次编码;根据各个一次编码失败的字符的语言类型,对各个一次编码失败的字符分别采用对应的默认编码方式进行二次编码;使用多种复合编码组合对二次编码失败的字符依次进行编码,直至得到正常字符或者全部复合编码组合均编码失败。采用本发明通过对乱码字符切换编码方式进行二次编码和组合编码,解决了多情景下的文本乱码问题。 (来 自 专利查询网)

专利主权项内容

1.一种乱码字符调整方法,其特征在于,包括:采用预设的文本语言模型分段识别目标文本各个段落的语言类型;根据各个段落的语言类型,对各个段落分别采用对应的默认编码方式分别进行一次编码;采用预设CRNN模型对各个段落中各个一次编码失败的字符进行字符识别,识别各个一次编码失败的字符的语言类型;根据各个一次编码失败的字符的语言类型,对各个一次编码失败的字符分别采用对应的默认编码方式进行二次编码;使用多种复合编码组合对二次编码失败的字符依次进行编码,直至得到正常字符或者全部复合编码组合均编码失败;其中,所述采用预设CRNN模型对各个段落中各个一次编码失败的字符进行字符识别,识别各个一次编码失败的字符的语言类型,具体包括:对各个段落中各个一次编码失败的字符进行截图保存,得到多个字符截图;对每个字符截图,根据预设CRNN模型中的卷积层提取字符截图的截图特征;对每个字符截图,根据所述CRNN模型中的且训练好的循环层结合上下文循环提取截图特征,得到全部字符的概率分布;对每个字符截图,根据所述CRNN模型中的转录层对全部字符的概率分布进行去重整合,得到对应一次编码失败的字符的语言类型。