一种基于深度学习的基因错义突变致病性预测系统
申请人信息
- 申请人:华南农业大学
- 申请人地址:510642 广东省广州市天河区五山路483号
- 发明人: 华南农业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于深度学习的基因错义突变致病性预测系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410128855.6 |
| 申请日 | 2024/1/31 |
| 公告号 | CN117672382A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G16B40/30 |
| 权利人 | 华南农业大学 |
| 发明人 | 黎曦健; 杨英汛; 李炜; 萧瀚阳; 温树文; 肖光成; 何瑞林; 杨启楠; 肖赛格; 黎杨倩; 黄俊桦; 李由; 陈诗静; 孙梓豪; 黄嘉炜; 陈汝恒; 陈芮; 张慧玲 |
| 地址 | 广东省广州市天河区五山 |
摘要文本
本发明公开了一种基于深度学习的基因错义突变致病性预测系统,包括,数据加载模块,用于加载蛋白质高质量多序列比对数据;数据预处理模块,用于对蛋白质高质量多序列比对数据进行预处理;训练模块,基于改进生成对抗网络学习每个蛋白质的氨基酸序列分布,捕获蛋白质的氨基酸序列的突变信息,学习其中突变的约束条件以及空间上的复杂依赖性,得到训练好的改进生成对抗网络;计算单点氨基酸突变相对可能性指数模块,用于计算所有单点氨基酸突变相对野生型氨基酸的相对可能性指数;致病性预测模块,将突变分为良性、不确定和致病,并提供单点氨基酸突变得分来解释基因错义突变致病性。本发明提供基因错义突变致病性的分类结果及其可解释性。。专利查询网
专利主权项内容
1.一种基于深度学习的基因错义突变致病性预测系统,其特征在于,包括:数据加载模块,用于加载蛋白质高质量多序列比对数据;数据预处理模块,用于对蛋白质高质量多序列比对数据进行预处理,得到蛋白质高质量多序列比对数据对应的野生型氨基酸、蛋白质序列独热编码数据以及每个氨基酸可能有效的单点氨基酸突变数据;训练模块,基于改进生成对抗网络从蛋白质序列独热编码数据学习每个蛋白质的氨基酸序列分布,捕获蛋白质的氨基酸序列的突变信息,学习其中突变的约束条件以及空间上的复杂依赖性,最终得到训练好的改进生成对抗网络;该改进生成对抗网络是对生成模块和判别模块进行改进;对生成模块的改进是:引入一对变分自动编码器,其中一个变分自动编码器与生成器平行,另一个变分自动编码器引入在生成器生成的数据之后;对判别模块的改进是:将原来的单一判别器改成两个判别器,其中一个判别器接收生成数据与原始数据,另一个判别器接收原始数据经过变分自动编码器输出的数据和生成数据经过另一个变分自动编码器输出的数据;计算单点氨基酸突变相对可能性指数模块,利用训练好的改进生成对抗网络学习每个蛋白质的氨基酸序列分布,构建蛋白质突变预测矩阵,用于计算所有单点氨基酸突变相对野生型氨基酸的相对可能性指数;致病性预测模块,通过在单点氨基酸突变的相对可能性指数分布上引入高斯混合模型,并应用变分贝叶斯估计进行拟合,以提升致病性预测的准确性;其中,该致病性预测模块将突变分为三个关键类别,分别为良性、不确定和致病,并提供单点氨基酸突变得分来解释基因错义突变致病性。 (更多数据,详见马克数据网)