一种文本纠错方法、装置及电子设备

申请号: CN202410193183.7

申请人: 中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司

申请日期: 2024/2/21

摘要文本

本申请实施例涉及大模型技术领域，具体公开了一种文本纠错方法、装置及电子设备，方法包括：获取预训练大模型；获取公文数据集；根据标点符号对公文数据集进行切分；使用切分后的公文数据集基于低秩适配器方法LoRA对预训练大模型进行微调，得到文本纠错模型；将待纠错文本输入文本纠错模型，得到纠错后的文本；将纠错后的文本与待纠错文本比较，得到纠错位置和错误文本；对纠错后的文本进行校正，输出目标文本。通过LoRA能够减少内存占用，简化计算需求，加速了大模型的训练和微调过程，同时对硬件要求较低。基于生成式大模型能够根据上下文信息进行纠错，处理语法、语义等多种类型的错误，全面地考虑句子的结构和含义，更好地纠正不同层次的错误。

申请人信息

申请人:中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司
申请人地址:100081 北京市海淀区大柳树路2号
发明人: 中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司

专利详细信息

项目	内容
专利名称	一种文本纠错方法、装置及电子设备
专利类型	发明申请
申请号	CN202410193183.7
申请日	2024/2/21
公告号	CN117744633A
公开日	2024/3/22
IPC主分类号	G06F40/232
权利人	中国铁道科学研究院集团有限公司电子计算技术研究所; 中国铁道科学研究院集团有限公司; 北京经纬信息技术有限公司
发明人	朱韦桥; 刘承亮; 张轩铭; 王伟萌; 张向阳; 马龙; 樊春雷; 刘帅龙; 李健; 刘辰; 麻磊; 惠伟; 孙晶; 解辰辉; 曲左阳; 杨扬; 王喆; 常灿; 蔡宇晶; 蒲照欣
地址	北京市海淀区大柳树路2号一区12幢2层201-203、206; 北京市海淀区大柳树路2号; 北京市海淀区大柳树路2号

专利主权项内容

1.一种文本纠错方法，其特征在于，所述方法包括：获取预训练大模型；获取公文数据集，所述公文数据集包括正常文本数据和错误文本数据，所述错误文本数据中的文本包括语法错误、语义错误、错别字错误；根据标点符号对所述公文数据集进行切分，得到切分后的公文数据集；使用切分后的公文数据集基于低秩适配器方法LoRA对所述预训练大模型进行微调，得到文本纠错模型；将待纠错文本输入所述文本纠错模型，得到纠错后的文本；将所述纠错后的文本与所述待纠错文本进行比较，得到纠错位置和错误文本；对所述纠错后的文本进行校正，输出目标文本。

一种文本纠错方法、装置及电子设备

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种文本纠错方法、装置及电子设备

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种全光产品的质量检测方法及系统

一种3D打印机脱料装置

一种基于试验数据库的压气机性能仿真程序精度评估方法

一种基于灰盒模型的节流阀响应预测方法

一种用于水性工业漆的加工装置

双辐板涡轮盘

热门技术领域

快速入口

专利技术资料