← 返回列表

训练数据处理方法、训练方法、装置、设备和介质

申请号: CN202311435529.1
申请人: 北京百度网讯科技有限公司
申请日期: 2023/10/31

摘要文本

本公开提供了一种训练数据处理方法、训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及对话模型、预训练和指令微调技术。其中,训练数据处理方法的具体实现方案为:从原始文本数据中获取多个指令数据集;基于至少两种聚类算法,分别从所述指令数据集中获取聚类种子,得到聚类种子集;根据所述聚类种子集,对所述指令数据集中的指令数据进行聚类,得到多个指令数据簇;从所述多个指令数据簇中分别选取目标指令数据,其中,所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。

专利详细信息

项目 内容
专利名称 训练数据处理方法、训练方法、装置、设备和介质
专利类型 发明申请
申请号 CN202311435529.1
申请日 2023/10/31
公告号 CN117436505A
公开日 2024/1/23
IPC主分类号 G06N3/092
权利人 北京百度网讯科技有限公司
发明人 杨霖; 田孟; 冯欣伟; 冯知凡; 崔骁鹏; 李斐斐; 吴学谦; 孙雨
地址 北京市海淀区上地十街10号百度大厦二层

专利主权项内容

1.一种训练数据处理方法,包括:从原始文本数据中获取多个指令数据集;基于至少两种聚类算法,分别从所述指令数据集中获取聚类种子,得到聚类种子集;根据所述聚类种子集,对所述指令数据集中的指令数据进行聚类,得到多个指令数据簇;从所述多个指令数据簇中分别选取目标指令数据,其中,所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。