← 返回列表

一种基于生物遗传数据的身高预测方法及系统

申请号: CN202410024498.9
申请人: 深圳市早知道科技有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种基于生物遗传数据的身高预测方法及系统
专利类型 发明申请
申请号 CN202410024498.9
申请日 2024/1/8
公告号 CN117524503A
公开日 2024/2/6
IPC主分类号 G16H50/70
权利人 深圳市早知道科技有限公司
发明人 李腾; 宋洁; 唐森威; 李哲夫; 王理中; 陈钢
地址 广东省深圳市福田区沙头街道车公庙天安创新科技广场A1002

摘要文本

本发明公开了一种基于生物遗传数据的身高预测方法及系统,包括:S1、构建身高相关基因位点参考数据库;S2、进行质量控制得到样本数据;进行主成分分析得到主成分PC;随机划分为训练集、验证集和测试集;S3、计算每个基因位点对身高的遗传效应值,得到训练集的身高GWAS数据;收集外部公开的身高GWAS数据及其与非公开数据经荟萃分析得到的位点权重数据;S4、计算跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重;S5、计算验证集的多基因风险评分PRS值;采用线性回归模型,得到身高预测模型;S6、计算目标集的多基因风险评分PRS值;将目标集代入身高预测模型,得到身高预测值,从而提高了中国人群身高预测的精度。。更多数据:

专利主权项内容

1.一种基于生物遗传数据的身高预测方法,其特征在于,包括如下步骤:S1、采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;S2、对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主成分分析,得到主成分PC;再将样本数据随机划分为训练集、验证集和测试集;S3、采用逻辑回归模型,以训练集的身高为因变量,以训练集的年龄、性别、数据批次、主成分PC为协变量,分别计算每个基因位点对身高的遗传效应值,得到训练集的身高GWAS数据;并收集外部公开的身高GWAS数据,以及其与非公开数据经荟萃分析得到的位点权重数据;S4、基于训练集的身高GWAS数据、外部公开的身高GWAS数据和位点权重数据,分别计算跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重;S5、将跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重应用到验证集,计算验证集的多基因风险评分PRS值;然后采用线性回归模型,以验证集的身高为因变量,以验证集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC为协变量,分别计算每个协变量的回归系数,并采用分步回归方法进行协变量的筛选,得到身高预测模型;S6、将跨族群身高的多基因风险评分PRS权重,以及单一族群身高的多基因风险评分PRS权重应用到目标集,计算目标集的多基因风险评分PRS值;然后将目标集的多基因风险评分PRS值、年龄、性别、数据批次、主成分PC代入身高预测模型,得到身高预测值。