← 返回列表

一种基于预训练语言模型的信息记录数据分块方法

申请号: CN202410194579.3
申请人: 数字苏州建设有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于预训练语言模型的信息记录数据分块方法
专利类型 发明申请
申请号 CN202410194579.3
申请日 2024/2/22
公告号 CN117763093A
公开日 2024/3/26
IPC主分类号 G06F16/33
权利人 数字苏州建设有限公司
发明人 程梦丽; 徐玉莲; 于鹏飞; 陆静波
地址 江苏省苏州市相城区相融路588号中荷创新港A栋11楼

摘要文本

本发明提供了一种基于预训练语言模型的信息记录数据分块方法,属于电数字数据处理技术领域,包括获取预训练数据集,并进行划分;基于XLnet模型,构建初始预训练语言模型;将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;获取信息记录数据集,并对其进行预处理,得到标注数据集;将标注数据集输入到第一次训练得到的模型中,并利用优化器和损失函数对模型的参数进行更新,得到完备的预训练语言模型;将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。本方法能够实现将长文本或者超长文本划分为若干个不同语义文本块的功能。

专利主权项内容

1.一种基于预训练语言模型的信息记录数据分块方法,其特征在于,包括以下步骤:步骤S1:获取预训练数据集,并进行划分;步骤S2:基于XLnet模型构建初始预训练语言模型,XLnet模型包括排列语言模型、双流注意力机制以及Transformer-XL模型;步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。