← 返回列表
一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法
摘要文本
搜索专利查询网 本发明公开一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法。基于transfomer模型,采用自监督学习技术从大规模蛋白质序列数据中学到有用的生物信息。为了降低蛋白质语言模型对显存的需求以方便部署,本发明首先把全连接层的权重矩阵表示成多个小矩阵的Kronecker积的和,然后设计了一种基于Eckhart‑Young定理的奇异值分解方法对小矩阵参数集进行初始化。本发明提出的设计方法可以在维持蛋白质语言模型建模能力的同时显著减少参数的数量。此外,基于本发明获得的预训练蛋白质语言模型可以为蛋白质结构预测、蛋白质折叠识别和蛋白质功能预测等任务提供富含生物信息的嵌入特征。
申请人信息
- 申请人:河南大学
- 申请人地址:475004 河南省开封市金明区东京大道和金明大道交叉口河南大学(金明校区)
- 发明人: 河南大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311439766.5 |
| 申请日 | 2023/10/31 |
| 公告号 | CN117352049A |
| 公开日 | 2024/1/5 |
| IPC主分类号 | G16B20/00 |
| 权利人 | 河南大学 |
| 发明人 | 杨伟; 张蕾; 刘春; 李征 |
| 地址 | 河南省开封市明伦街85号 |
专利主权项内容
1.一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法,其特征在于,包括:步骤1:采用UniRef50数据集作为训练数据,并进行训练数据预处理;步骤2:基于预处理后的训练数据构建进行自监督学习的小批量数据;步骤3:设计基于Kronecker积分解的参数高效蛋白质语言模型;步骤4:初始化模型参数;步骤5:基于自监督学习训练蛋白质语言模型。