基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法
摘要文本
本发明一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,属于计算机科学技术与生物学的交叉领域;包括一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法。本发明提出了一种新的方法,用于挖掘数据中蕴含的疾病信息。全基因组关联分析是一种常用的探索复杂疾病的方法,提出高效且准确的检测方法一直是该领域的研究热点之一。本发明提出的方法基于灰狼优化算法实现,能够有效地在该数据上检测与复杂疾病相关的SNP组合。相比现有的其它算法,该方法具有更高的检测能力。本发明的研究成果将有助于进一步探索复杂疾病的致病机理,并有助于推进复杂疾病的解释、预防和治疗。
申请人信息
- 申请人:长春大学
- 申请人地址:130012 吉林省长春市卫星路6543号
- 发明人: 长春大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410118311.1 |
| 申请日 | 2024/1/29 |
| 公告号 | CN117649876A |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G16B20/20 |
| 权利人 | 长春大学 |
| 发明人 | 孙立岩; 边靖雯; 姜林青; 辛翌; 郑琳宣 |
| 地址 | 吉林省长春市卫星路6543号 |
专利主权项内容
1.一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,包括以下步骤,且以下步骤顺次进行:步骤S1:载入全基因组关联分析Genome-wide association study ,GWAS数据到内存使用与Boolean Operation-based Screening and Testing,BOOST算法类似的基于二进制的存储方式;步骤S2:根据数据中的样本数计算最大上位性阶数和列联表最大长度步骤S3:初始化狼群初始化狼群中的狼,狼的数目由用户通过参数指定,每一只狼是一个长度为mo的整型向量,向量上的每一个数字代表GWAS数据中某一个single-nucleotide polymorphism ,SNP的索引下标,而每一只狼对应的就是一个SNP组合;步骤S4:更新变异率变异率的计算方式如式(3)所示,它是0到最大变异率mr之间的一个值;
(3)其中,vr是变异率,ns是狼群中所有SNP去重之后的数目,代表了狼群的复杂性,nw是狼群中狼的数目,mr是算法可以接受的最大的变异率,mr变量的值由用户通过参数指定;步骤S5:计算狼群中所有狼的K2、CE、Gini目标函数的值
(4)
(5)
(6)其中,X代表一个SNP组合,Y代表疾病状态,k2(, )是SNP组合X与疾病状态Y之间的K2值,XG是SNP组合的组合基因型集合,YG代表疾病状态的集合,对于GWAS研究,通常样本的状态只有患病与正常,因此YG通常为{0, 1},一般用0代表正常样本,1代表患病样本,m是样本中组合基因型为x的样本的数目,m是样本中组合基因型为x并且样本状态为y的样本数目;ce(, )是X与Y之间的CE值,p(, )是SNP组合基因型为x并且样本状态为y的样本的数目与样本总数的比例,p(x)是SNP组合基因型为x的数目与样本总数的比例;(, )是X与Y之间的值,p(|)是在所有SNP组合基因型为x的样本中,样本状态为y的样本的占比;XYxx, yXYxyginiXYGiniyx步骤S6:根据K2、CE、Gini目标函数的值以及每匹狼的头狼次数选取三匹头狼,并更新头狼次数;步骤S7:在三匹头狼上检测与疾病相关的SNP组合在每一次狼群中选出三匹头狼之后,针对每一匹头狼,基于K2值反复移除头狼中的噪声SNP,直到不存在噪声,如果最后剩余的SNP的数目大于1,则算法找到了一个SNP组合,并且这个组合中的SNP彼此联系且与疾病状态相关;步骤S8:狼群向三匹头狼移动狼是一个长度为mo的整型向量,每一个整数代表了GWAS数据中一个SNP的下标,检测完三匹头狼之后,对于狼群中其它的狼,向三匹头狼移动,以达到狼群寻优的目的;步骤S9:移动狼群中的每一匹头狼之外的狼,从而完成了一次狼群的移动,而后判断灰狼算法的迭代次数,如果迭代次数到达最大迭代次数,则算法执行完成,将算法记录的结果输出到结果文件,如果未达到最大迭代次数,更新变异率,进入下一次循环。