基于突变签名的疾病风险预测模型构建方法及分析方法
摘要文本
本发明涉及生物基因技术领域,提供了一种基于突变签名的疾病风险预测模型构建方法及分析方法。其中,基于突变签名的疾病风险预测模型构建方法,包括:获取第一训练数据,第一训练数据包括多个患者的突变签名数据,突变签名数据中包括至少一个突变签名和各突变签名对应的突变签名活性值;根据第一训练数据对第一疾病风险预测模型进行训练,得到第二疾病风险预测模型;将第一训练数据输入至第二疾病风险预测模型,得到各患者对应的突变类型;根据各突变类型,对第二疾病风险预测模型进行调整,得到第三疾病风险预测模型。通过本发明,提高模型的泛化性能,使得第三疾病风险预测模型预测疾病风险的准确性更高。
申请人信息
- 申请人:北京望石智慧科技有限公司
- 申请人地址:100080 北京市海淀区丹棱街6号丹棱soho 917-930
- 发明人: 北京望石智慧科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于突变签名的疾病风险预测模型构建方法及分析方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311678281.1 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117373678B |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G16H50/30 |
| 权利人 | 北京望石智慧科技有限公司 |
| 发明人 | 濮梦辰; 郑炜圣; 李晓荣; 樊可悦; 田凯 |
| 地址 | 北京市海淀区丹棱街6号丹棱soho917-930 |
专利主权项内容
1.一种基于突变签名的疾病风险预测模型构建方法,其特征在于,所述方法包括:获取第一训练数据,所述第一训练数据包括多个患者的突变签名数据,所述突变签名数据中包括至少一个突变签名和各所述突变签名对应的突变签名活性值,所述突变签名活性值表征所述突变签名活性值对应的突变签名在患者的体细胞突变中所占的比例大小;根据所述第一训练数据对第一疾病风险预测模型进行训练,得到第二疾病风险预测模型;将所述第一训练数据输入至所述第二疾病风险预测模型,得到各所述患者对应的突变类型;根据各所述突变类型,对所述第二疾病风险预测模型进行调整,得到第三疾病风险预测模型;根据各所述突变类型,对所述第二疾病风险预测模型进行调整,得到第三疾病风险预测模型,包括:计算所述第一训练数据中各突变签名与各所述突变类型之间的相关性;根据各所述相关性对所述第一训练数据中的各突变签名进行筛选,得到第二训练数据,所述第二训练数据中包括筛选后的突变签名,以及在第一训练数据中筛选后的突变签名对应的突变签名活性值;根据所述第二训练数据对所述第二疾病风险预测模型进行训练,得到所述第三疾病风险预测模型;所述相关性通过互信息表征,所述根据各所述相关性对所述第一训练数据中的各突变签名进行筛选,得到第二训练数据,包括:根据所述第一训练数据中各突变签名与各所述突变类型之间的互信息,在各所述突变签名中删除第一预设比例的突变签名,得到筛选后的突变签名;将筛选后的突变签名,以及在第一训练数据中筛选后的突变签名对应的突变签名活性值作为所述第二训练数据;所述第二疾病风险预测模型为全连接神经网络模型,所述全连接神经网络模型中包括多个神经元,所述根据所述第二训练数据对所述第二疾病风险预测模型进行训练,得到所述第三疾病风险预测模型,包括:获取第二疾病风险预测模型中各所述神经元之间的权重值;根据各所述权重值,删除第二预设比例的权重,得到筛选后的权重;根据各所述权重,对所述第二疾病风险预测模型进行调整,得到第四疾病风险预测模型;根据所述第二训练数据对所述第四疾病风险预测模型进行训练,得到所述第三疾病风险预测模型。