基于简并编码及深度学习的MHC预测模型构建方法及系统
摘要文本
本发明提供了一种基于简并编码及深度学习的MHC预测模型构建方法及系统,构建了能预测Ⅰ类主要组织相容性复合体与抗原肽结合的ConvNeXt‑MHC预测模型,模型主要包括两个部分,第一个部分提供了一种简并编码方法,提高了经典MHC I与多肽的结合性预测模型的泛化性能;第二个部分,设计了ConvNeXt‑MHC模型网络的整体架构,并将迁移学习和半监督学习方法整合到深度学习框架ConvNeXt中,通过扩充数据和增加先验知识的方式提升了模型的准确性和泛化性。本方案可以开展MHC I与多肽的在线结合性预测、多肽的基序分析和数据共享,捕获更丰富的信息,预测效果显著优于现有方法。
申请人信息
- 申请人:四川大学
- 申请人地址:610065 四川省成都市一环路南一段24号
- 发明人: 四川大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于简并编码及深度学习的MHC预测模型构建方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311551942.4 |
| 申请日 | 2023/11/21 |
| 公告号 | CN117457079A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G16B40/00 |
| 权利人 | 四川大学 |
| 发明人 | 章乐; 宋文凯; 朱庭昊 |
| 地址 | 四川省成都市一环路南一段24号 |
专利主权项内容
来源:百度马 克 数据网 。1.基于简并编码及深度学习的MHC预测模型构建方法,其特征在于,所述方法包括:S1、对pMHCI结构数据进行过滤,并对齐不同等位氨基酸残基的位点,得到预处理MHC数据;对MS数据及AF数据进行预处理,得到预处理MS数据及预处理AF数据;S2、获取伪序列位点:基于预处理MHC数据,筛选出与多肽距离小于距离阈值的候选氨基酸序列位点,保存至数据集S,并计算各位点频率;基于截断频率及各位点频率,选取氨基酸序列位点,并删除同源性位点,建立筛选后MHC数据与多肽位点对应关系,以建立伪序列位点矩阵,所述伪序列位点矩阵中各元素表示多肽位点与对应氨基酸序列位点是否接触;S3、按照多肽位点顺序,将与同一个多肽位点残基有接触的多个氨基酸序列位点编码到一个向量,以构建简并编码矩阵;S4、构建MHC模型,所述MHC模型至少包括依次连接的注意力块、第一融合深度卷积块、第一下采样层、第二融合深度卷积块和第二下采样层;所述注意力块为所述简并编码矩阵增加先验知识;S5、通过所述预处理MS数据及所述预处理AF数据,分别训练所述MHC模型,分别获得预测MS数据的抗原呈递模型及预测AF数据的亲和力结合模型。