← 返回列表
训练数据处理方法、训练方法、装置、设备和介质
摘要文本
本公开提供了一种训练数据处理方法、训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及对话模型、预训练和指令微调技术。其中,训练数据处理方法的具体实现方案为:从原始文本数据中获取多个指令数据集;基于至少两种聚类算法,分别从所述指令数据集中获取聚类种子,得到聚类种子集;根据所述聚类种子集,对所述指令数据集中的指令数据进行聚类,得到多个指令数据簇;从所述多个指令数据簇中分别选取目标指令数据,其中,所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。
申请人信息
- 申请人:北京百度网讯科技有限公司
- 申请人地址:100085 北京市海淀区上地十街10号百度大厦2层
- 发明人: 北京百度网讯科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 训练数据处理方法、训练方法、装置、设备和介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311435529.1 |
| 申请日 | 2023/10/31 |
| 公告号 | CN117436505A |
| 公开日 | 2024/1/23 |
| IPC主分类号 | G06N3/092 |
| 权利人 | 北京百度网讯科技有限公司 |
| 发明人 | 杨霖; 田孟; 冯欣伟; 冯知凡; 崔骁鹏; 李斐斐; 吴学谦; 孙雨 |
| 地址 | 北京市海淀区上地十街10号百度大厦二层 |
专利主权项内容
1.一种训练数据处理方法,包括:从原始文本数据中获取多个指令数据集;基于至少两种聚类算法,分别从所述指令数据集中获取聚类种子,得到聚类种子集;根据所述聚类种子集,对所述指令数据集中的指令数据进行聚类,得到多个指令数据簇;从所述多个指令数据簇中分别选取目标指令数据,其中,所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。