← 返回列表

基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法

申请号: CN202410118311.1
申请人: 长春大学
申请日期: 2024/1/29

摘要文本

本发明一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,属于计算机科学技术与生物学的交叉领域;包括一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法。本发明提出了一种新的方法,用于挖掘数据中蕴含的疾病信息。全基因组关联分析是一种常用的探索复杂疾病的方法,提出高效且准确的检测方法一直是该领域的研究热点之一。本发明提出的方法基于灰狼优化算法实现,能够有效地在该数据上检测与复杂疾病相关的SNP组合。相比现有的其它算法,该方法具有更高的检测能力。本发明的研究成果将有助于进一步探索复杂疾病的致病机理,并有助于推进复杂疾病的解释、预防和治疗。

专利详细信息

项目 内容
专利名称 基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法
专利类型 发明申请
申请号 CN202410118311.1
申请日 2024/1/29
公告号 CN117649876A
公开日 2024/3/5
IPC主分类号 G16B20/20
权利人 长春大学
发明人 孙立岩; 边靖雯; 姜林青; 辛翌; 郑琳宣
地址 吉林省长春市卫星路6543号

专利主权项内容

1.一种基于GWO算法在GWAS数据上检测与复杂疾病相关SNP组合的方法,其特征在于,包括以下步骤,且以下步骤顺次进行:步骤S1:载入全基因组关联分析Genome-wide association study ,GWAS数据到内存使用与Boolean Operation-based Screening and Testing,BOOST算法类似的基于二进制的存储方式;步骤S2:根据数据中的样本数计算最大上位性阶数和列联表最大长度步骤S3:初始化狼群初始化狼群中的狼,狼的数目由用户通过参数指定,每一只狼是一个长度为mo的整型向量,向量上的每一个数字代表GWAS数据中某一个single-nucleotide polymorphism ,SNP的索引下标,而每一只狼对应的就是一个SNP组合;步骤S4:更新变异率变异率的计算方式如式(3)所示,它是0到最大变异率mr之间的一个值;
(3)其中,vr是变异率,ns是狼群中所有SNP去重之后的数目,代表了狼群的复杂性,nw是狼群中狼的数目,mr是算法可以接受的最大的变异率,mr变量的值由用户通过参数指定;步骤S5:计算狼群中所有狼的K2、CE、Gini目标函数的值
(4)
(5)
(6)其中,X代表一个SNP组合,Y代表疾病状态,k2(, )是SNP组合X与疾病状态Y之间的K2值,XG是SNP组合的组合基因型集合,YG代表疾病状态的集合,对于GWAS研究,通常样本的状态只有患病与正常,因此YG通常为{0, 1},一般用0代表正常样本,1代表患病样本,m是样本中组合基因型为x的样本的数目,m是样本中组合基因型为x并且样本状态为y的样本数目;ce(, )是X与Y之间的CE值,p(, )是SNP组合基因型为x并且样本状态为y的样本的数目与样本总数的比例,p(x)是SNP组合基因型为x的数目与样本总数的比例;(, )是X与Y之间的值,p(|)是在所有SNP组合基因型为x的样本中,样本状态为y的样本的占比;XYxx, yXYxyginiXYGiniyx步骤S6:根据K2、CE、Gini目标函数的值以及每匹狼的头狼次数选取三匹头狼,并更新头狼次数;步骤S7:在三匹头狼上检测与疾病相关的SNP组合在每一次狼群中选出三匹头狼之后,针对每一匹头狼,基于K2值反复移除头狼中的噪声SNP,直到不存在噪声,如果最后剩余的SNP的数目大于1,则算法找到了一个SNP组合,并且这个组合中的SNP彼此联系且与疾病状态相关;步骤S8:狼群向三匹头狼移动狼是一个长度为mo的整型向量,每一个整数代表了GWAS数据中一个SNP的下标,检测完三匹头狼之后,对于狼群中其它的狼,向三匹头狼移动,以达到狼群寻优的目的;步骤S9:移动狼群中的每一匹头狼之外的狼,从而完成了一次狼群的移动,而后判断灰狼算法的迭代次数,如果迭代次数到达最大迭代次数,则算法执行完成,将算法记录的结果输出到结果文件,如果未达到最大迭代次数,更新变异率,进入下一次循环。