← 返回列表
一种基于通用大语言模型的行业知识大模型构建方法
摘要文本
本发明提供一种基于通用大语言模型的行业知识大模型构建方法,属于人工智能领域,本发明利用计算机视觉模型、光学字符识别模型从行业手册、决策文书、新闻、论坛等途径提取无监督行业知识语料,构建预训练行业知识语料库,并且使用行业业务流程数据以“指令‑输入‑输出”的格式构建微调行业知识语料库。首先使用预训练行业知识语料库对通用大语言模型进行在本行业领域的增量化预训练,构建形成增量化预训练大模型,然后利用微调行业知识语料库对增量化预训练大模型进行微调训练,构建形成行业知识大模型,行业知识大模型能够更有效地按照行业业务流程提供相关行业知识服务。
申请人信息
- 申请人:浪潮软件科技有限公司
- 申请人地址:250000 山东省济南市高新区浪潮路1036号浪潮科技园
- 发明人: 浪潮软件科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于通用大语言模型的行业知识大模型构建方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410130313.2 |
| 申请日 | 2024/1/31 |
| 公告号 | CN117668258A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06F16/36 |
| 权利人 | 浪潮软件科技有限公司 |
| 发明人 | 王珂琛; 李照川; 王冠军; 公茂强; 钟伟; 常靓; 郭凤 |
| 地址 | 山东省济南市高新区浪潮路1036号浪潮科技园 |
专利主权项内容
1.一种基于通用大语言模型的行业知识大模型构建方法,其特征在于,包括如下步骤:S1.利用数据提取工具从多渠道提取无监督行业知识语料,构建预训练行业知识语料库;S2.将行业业务流程数据以“指令-输入-输出”的格式构建微调行业知识语料库,并按照业务流程,实现多指令递归,即上一条的输出对应着这一条的指令,保证模型根据业务处理过程依次训练学习以实现全链条业务流程闭环;S3.使用预训练行业知识语料库对通用大语言模型进行增量化预训练,使通用大语言模型对本行业领域内知识具有更高的泛化性能,构建形成增量化预训练大模型;S4.使用微调行业知识语料库对增量化预训练大模型进行定制化微调,构建形成行业知识大模型,行业知识大模型能够按照行业业务流程引导用户提供材料并向用户提供行业知识服务;S5.加载行业知识大模型,根据不同的使用需求选择不同的行业知识服务。