← 返回列表

多肽氨基酸序列生成模型训练及相关产品

申请号: CN202410165333.3
申请人: 北京悦康科创医药科技股份有限公司
申请日期: 2024/2/5

摘要文本

本发明提供一种多肽氨基酸序列生成模型训练及相关产品。该方法的一具体实施方式包括:通过利用与目标受体之间结合有活性的活性多肽氨基酸序列,再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列,再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示,并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列,再以样本多肽词元特征序列作为输入数据,以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而,多肽氨基酸序列生成模型可以预测与目标受体之间具有结合活性的多肽氨基酸序列。

专利详细信息

项目 内容
专利名称 多肽氨基酸序列生成模型训练及相关产品
专利类型 发明申请
申请号 CN202410165333.3
申请日 2024/2/5
公告号 CN117711532A
公开日 2024/3/15
IPC主分类号 G16C20/70
权利人 北京悦康科创医药科技股份有限公司
发明人 宋更申; 赵化建; 蔡利锋
地址 北京市大兴区北京经济技术开发区科创七街11号院3号楼1层101室

专利主权项内容

1.一种多肽氨基酸序列生成模型训练方法,包括:获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。