一种基于电子病历问答模型的数据预处理系统
摘要文本
本发明提供了一种基于电子病历问答模型的数据预处理系统,系统包括样本电子病历信息集、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据样本电子病例信息集,获取候选文本集,根据候选文本集和目标术语知识图谱,获取候选关键词集,根据候选文本集和候选关键词集,获取初始文本集,根据初始文本集,获取目标文本集,根据目标文本集,获取指定文本向量以实现数据预处理,本发明基于文本的类型对文本字符串的数量进行统一,保证了获取到的指定文本向量的全面性,同时,考虑文本中的关键词因素,基于不同因素采用不同手段对文本进行处理,提高了获取到的指定文本向量集的准确度。
申请人信息
- 申请人:生命奇点(北京)科技有限公司; 奇点数联(北京)科技有限公司
- 申请人地址:100086 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦17层1708
- 发明人: 生命奇点(北京)科技有限公司; 奇点数联(北京)科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于电子病历问答模型的数据预处理系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311516587.7 |
| 申请日 | 2023/11/14 |
| 公告号 | CN117454843A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G06F40/126 |
| 权利人 | 生命奇点(北京)科技有限公司; 奇点数联(北京)科技有限公司 |
| 发明人 | 刘立宇; 初乃强; 赵瑞莹 |
| 地址 | 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦17层1708; 北京市朝阳区东三环中路乙10号第10层04-06号 |
专利主权项内容
1.一种基于电子病历问答模型的数据预处理系统,其特征在于,所述系统包括:样本电子病历信息集、处理器和存储有计算机程序的存储器,其中,所述样本电子病历信息集包括若干个样本电子病历信息,所述样本电子病历信息为从数据库中获取到的病历中对应的异常状态特征信息,当所述计算机程序被处理器执行时,实现以下步骤:S1,根据样本电子病历信息集,获取候选文本集A={A,……,A,……,A},A为第i个候选文本,i=1……n,n为候选文本的数量;1iniS3,根据A和目标术语知识图谱,获取A对应的候选关键词集Q={Q,……,Q,……,Q},Q为A对应的候选关键词列表;1iniiS5,根据A和Q,获取初始文本集T={T,……,T,……,T},T={A,Q},T为第i个初始文本;1iniiiiS7,根据T,获取指定文本集U={U,……,U,……,U},U为第i个指定文本,其中,在S7中通过如下步骤获取U:1iniiS71,根据T,获取T对应的文本字符串WT=(WT,……,WT,……,WT,WT,……,WT,……,WT),WT为A对应的第x个文字字符,x=1……p,p为A对应的文字字符的数量,WT为Q对应的第y个文字字符,y=1……q,q为Q对应的文字字符的数量;iii0i10ix0ip1i11iy1iq0ixii1iyiiS72,当p+q=K时,获取U=T,其中,K为预设的关键优先级阈值;iiS73,当p+q>K时,获取Q对应的候选优先级集P={P,……,P,……,P},P={P,……,P,……,P},P为Q对应的候选关键词列表中第e个候选关键词对应的候选优先级,e=1……f(i),f(i)为Q对应的候选关键词列表中候选关键词的数量;1inii1ieif(i)ieiiS74,基于P,对WT进行处理以获取U;iiS75,当p+q<K时,获取Q对应的指定关键词集R={R,……,R,……,R}和Q对应的指定优先级集G={G,……,G,……,G},R为Q对应的指定关键词列表,G为Q对应的指定优先级列表;iii1ieif(i)iii1ieif(i)ieieieieS76,根据R和G,对WT进行处理以获取U;iiiiS9,根据U,获取指定文本向量集以实现数据预处理,其中,所述指定文本向量集包括若干个指定文本向量,其中,所述指定文本向量为将指定文本输入至预训练电子病历编码模型中获取到的。