基于AI大语言模型的上下文构造方法及系统

申请号: CN202311818165.5

申请人: 卓世科技(海南)有限公司

申请日期: 2023/12/27

摘要文本

本发明涉及自然语言的处理分析技术领域，具体涉及一种基于AI大语言模型的上下文构造方法及系统。本发明首先根据上游任务及下游任务对应训练集间对应文本的主题重合度，获取上游任务与下游任务的任务相关性，进而在上游任务的预训练过程中，根据上游任务的预测准确性及任务相关性获取预训练过程中损失的奖惩参考权重；然后根据奖惩参考权重调整大语言模型，通过不断地迭代调整及预训练，调整模型的学习目标，进而可以将调整后的预训练模型在特殊领域任务中进行微调并保存应用。本发明结合上下游任务的相关性对模型的预训练引入奖惩机制，加强模型与下游任务的联系性，提高大语言模型的上下文构造准确性。

申请人信息

申请人:卓世科技(海南)有限公司
申请人地址:572025 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室
发明人: 卓世科技(海南)有限公司

专利详细信息

项目	内容
专利名称	基于AI大语言模型的上下文构造方法及系统
专利类型	发明授权
申请号	CN202311818165.5
申请日	2023/12/27
公告号	CN117494717B
公开日	2024/3/19
IPC主分类号	G06F40/289
权利人	卓世科技(海南)有限公司
发明人	屠静; 赵策; 王亚; 苏岳; 万晶晶; 李伟伟; 颉彬; 周勤民; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
地址	海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室

专利主权项内容

1.一种基于AI大语言模型的上下文构造方法，其特征在于，所述方法包括：分别获取大语言模型的上游任务及下游任务的训练集，所述训练集中包括所有用于对应任务训练的切分文本构成的句子对；根据上游任务及下游任务对应所述训练集间对应文本的主题重合度，获取上游任务与下游任务的任务相关性；在上游任务的预训练过程中，根据上游任务的预测准确性及所述任务相关性获取预训练过程中损失的奖惩参考权重；根据所述奖惩参考权重调整大语言模型；以调整后的大语言模型进行上游任务的预训练，获取相应预训练过程中的奖惩参考权重并调整大语言模型，不断迭代获取奖惩参考权重并调整大语言模型，直至满足预设截止条件；将满足预设截止条件的大语言模型作为预训练的最终大语言模型；所述任务相关性的获取方法包括：分别获取上游任务及下游任务对应所述训练集对应文本的主题集合，以及每个主题对应的主题分布概率；根据任务相关性的计算公式获取上游任务与下游任务的任务相关性；任务相关性的计算公式为：
; 其中，/>为上游任务与下游任务之间的任务相关性；/>为上游任务对应主题集合与下游任务对应主题集合的并集中的主题数量，/>为上游任务对应主题集合与下游任务对应主题集合的交集中的主题数量；/>为上游任务对应主题集合与下游任务对应主题集合中第/>个相同主题间的主题分布概率的差值，/>为预设正常数；所述大语言模型的调整方法包括：在上游任务的首次预训练过程中，获取上游任务在首次预训练时的初始训练损失；将所述奖惩参考权重乘以所述初始训练损失，得到奖惩训练损失，基于所述奖惩训练损失对大语言模型进行训练，并将训练后所得到的大语言模型作为调整后的大语言模型；在上游任务的每次非首次预训练过程中，以上一次预训练过程获取的奖惩训练损失为本次预训练过程的初始训练损失，并将本次预训练过程的奖惩参考权重乘以本次预训练过程的初始训练损失，得到本次预训练过程的奖惩训练损失，基于本次预训练过程的奖惩训练损失对大语言模型进行训练，并将训练后所得到的大语言模型作为调整后的大语言模型；预设截止条件为所述奖惩训练损失小于等于预设常数值。

基于AI大语言模型的上下文构造方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

基于AI大语言模型的上下文构造方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种支持服务质量的光命名数据网络数据冲突解决方法

一种体声波谐振器件及其制备方法

一种具有抗菌性和耐久性的陶瓷纤维渔网材料及其制备方法

一种显示内容渲染方法及渲染系统

区域地面站支持下低轨卫星增强的全球精密单点定位方法

一种潮流能发电机组的组合密封结构

热门技术领域

快速入口

专利技术资料