一种基于生物遗传数据的身高预测方法及系统
申请人信息
- 申请人:深圳市早知道科技有限公司
- 申请人地址:518000 广东省深圳市福田区沙头街道车公庙天安创新科技广场A1002
- 发明人: 深圳市早知道科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于生物遗传数据的身高预测方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410024498.9 |
| 申请日 | 2024/1/8 |
| 公告号 | CN117524503A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G16H50/70 |
| 权利人 | 深圳市早知道科技有限公司 |
| 发明人 | 李腾; 宋洁; 唐森威; 李哲夫; 王理中; 陈钢 |
| 地址 | 广东省深圳市福田区沙头街道车公庙天安创新科技广场A1002 |
摘要文本
本发明公开了一种基于生物遗传数据的身高预测方法及系统,包括:S1、构建身高相关基因位点参考数据库;S2、进行质量控制得到样本数据;进行主成分分析得到主成分PC;随机划分为训练集、验证集和测试集;S3、计算每个基因位点对身高的遗传效应值,得到训练集的身高GWAS数据;收集外部公开的身高GWAS数据及其与非公开数据经荟萃分析得到的位点权重数据;S4、计算跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重;S5、计算验证集的多基因风险评分PRS值;采用线性回归模型,得到身高预测模型;S6、计算目标集的多基因风险评分PRS值;将目标集代入身高预测模型,得到身高预测值,从而提高了中国人群身高预测的精度。。更多数据:
专利主权项内容
1.一种基于生物遗传数据的身高预测方法,其特征在于,包括如下步骤:S1、采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;S2、对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主成分分析,得到主成分PC;再将样本数据随机划分为训练集、验证集和测试集;S3、采用逻辑回归模型,以训练集的身高为因变量,以训练集的年龄、性别、数据批次、主成分PC为协变量,分别计算每个基因位点对身高的遗传效应值,得到训练集的身高GWAS数据;并收集外部公开的身高GWAS数据,以及其与非公开数据经荟萃分析得到的位点权重数据;S4、基于训练集的身高GWAS数据、外部公开的身高GWAS数据和位点权重数据,分别计算跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重;S5、将跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重应用到验证集,计算验证集的多基因风险评分PRS值;然后采用线性回归模型,以验证集的身高为因变量,以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量,分别计算每个协变量的回归系数,并采用分步回归方法进行协变量的筛选,得到身高预测模型;S6、将跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重应用到目标集,计算目标集的多基因风险评分PRS值;然后将目标集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC代入身高预测模型,得到身高预测值。