← 返回列表

一种文本纠错方法、装置及电子设备

申请号: CN202410193183.7
申请人: 中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司
申请日期: 2024/2/21

摘要文本

本申请实施例涉及大模型技术领域,具体公开了一种文本纠错方法、装置及电子设备,方法包括:获取预训练大模型;获取公文数据集;根据标点符号对公文数据集进行切分;使用切分后的公文数据集基于低秩适配器方法LoRA对预训练大模型进行微调,得到文本纠错模型;将待纠错文本输入文本纠错模型,得到纠错后的文本;将纠错后的文本与待纠错文本比较,得到纠错位置和错误文本;对纠错后的文本进行校正,输出目标文本。通过LoRA能够减少内存占用,简化计算需求,加速了大模型的训练和微调过程,同时对硬件要求较低。基于生成式大模型能够根据上下文信息进行纠错,处理语法、语义等多种类型的错误,全面地考虑句子的结构和含义,更好地纠正不同层次的错误。

专利详细信息

项目 内容
专利名称 一种文本纠错方法、装置及电子设备
专利类型 发明申请
申请号 CN202410193183.7
申请日 2024/2/21
公告号 CN117744633A
公开日 2024/3/22
IPC主分类号 G06F40/232
权利人 中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司
发明人 朱韦桥; 刘承亮; 张轩铭; 王伟萌; 张向阳; 马龙; 樊春雷; 刘帅龙; 李健; 刘辰; 麻磊; 惠伟; 孙晶; 解辰辉; 曲左阳; 杨扬; 王喆; 常灿; 蔡宇晶; 蒲照欣
地址 北京市海淀区大柳树路2号一区12幢2层201-203、206; 北京市海淀区大柳树路2号; 北京市海淀区大柳树路2号

专利主权项内容

1.一种文本纠错方法,其特征在于,所述方法包括:获取预训练大模型;获取公文数据集,所述公文数据集包括正常文本数据和错误文本数据,所述错误文本数据中的文本包括语法错误、语义错误、错别字错误;根据标点符号对所述公文数据集进行切分,得到切分后的公文数据集;使用切分后的公文数据集基于低秩适配器方法LoRA对所述预训练大模型进行微调,得到文本纠错模型;将待纠错文本输入所述文本纠错模型,得到纠错后的文本;将所述纠错后的文本与所述待纠错文本进行比较,得到纠错位置和错误文本;对所述纠错后的文本进行校正,输出目标文本。