一种模型训练数据的预处理系统
摘要文本
本发明涉及一种模型训练数据的预处理系统,涉及数据处理技术领域,系统包括:样本文本列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本事件列表集,获取样本标签列表,根据样本标签列表,获取第一中间文本列表集,获取第二中间文本列表集,根据每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式进行处理以获取目标训练集,本发明采用不同的处理方式获取不同标签下的文本作为目标训练集,使得目标训练数据集的类型更加多样化,基于不同标签下文本和文本中词的特征进行处理,使得每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
申请人信息
- 申请人:北京睿企信息科技有限公司; 日照睿安信息科技有限公司
- 申请人地址:100027 北京市东城区东直门南大街1号北京来福士中心办公楼2层02单元
- 发明人: 北京睿企信息科技有限公司; 日照睿安信息科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种模型训练数据的预处理系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410019191.X |
| 申请日 | 2024/1/5 |
| 公告号 | CN117520754A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06F18/10 |
| 权利人 | 北京睿企信息科技有限公司; 日照睿安信息科技有限公司 |
| 发明人 | 王全修; 于伟; 靳雯; 石江枫; 赵洲洋; 吴凡 |
| 地址 | 北京市东城区东直门南大街1号北京来福士中心办公楼2层02单元; 山东省日照市高新区学苑路217号A11栋102室 |
专利主权项内容
1.一种模型训练数据的预处理系统,其特征在于,所述系统包括:存储介质、处理器和存储有计算机程序的存储器,其中,所述存储介质包括样本文本列表,所述样本文本列表包括若干个样本文本,所述样本文本为用于目标模型训练所需要的文本,当所述计算机程序被处理器执行时,实现以下步骤:S100,根据样本文本列表,获取样本文本列表对应的样本事件列表集,其中,所述样本事件列表集包括若干个样本事件列表,每个样本文本对应一个样本事件列表,所述样本事件列表包括若干个样本事件,所述样本事件为样本文本中所包括的事件;S200,根据样本事件列表集,获取样本标签列表,其中,所述样本标签列表包括若干个样本标签,所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型;S300,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集A={A,……,A,……,A},A为第i个样本标签对应的第一中间文本列表,i=1……n,n为样本标签的数量,所述第一中间文本列表包括若干个第一中间文本,其中,所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本;1iniS400,根据A,获取A对应的第二中间文本列表集B={B,……,B,……,B},B={B,……,B,……,B},B为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本,r=1……s(e),s(e)为第e个样本标签对应的第二中间文本列表中第二中间文本的数量,e=1……f,f=n,其中,s(1)≥……≥s(e)≥……≥s(f),s(1)为第1个样本标签对应的第二中间文本列表中第二中间文本的数量, s(f)为第f个样本标签对应的第二中间文本列表中第二中间文本的数量;1efee1eres(e)erS500,当>s时,采用第一处理方式对B进行处理以获取目标训练集,其中,,/>,s(ε)为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量,λ为第一预设参数阈值,λ为第二预设参数阈值,/>为不小于(f×λ)的最小整数,所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除仅将其保留在一个包括第二中间文本数量最小的第二中间文本列表中;0121S600,当≤s时,采用第二处理方式对B进行处理以获取目标训练集,其中,所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二中间文本列表进行处理。0