训练数据处理方法、训练方法、装置、设备和介质

申请号: CN202311435529.1

申请人: 北京百度网讯科技有限公司

申请日期: 2023/10/31

摘要文本

本公开提供了一种训练数据处理方法、训练方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及对话模型、预训练和指令微调技术。其中，训练数据处理方法的具体实现方案为：从原始文本数据中获取多个指令数据集；基于至少两种聚类算法，分别从所述指令数据集中获取聚类种子，得到聚类种子集；根据所述聚类种子集，对所述指令数据集中的指令数据进行聚类，得到多个指令数据簇；从所述多个指令数据簇中分别选取目标指令数据，其中，所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。

申请人信息

申请人:北京百度网讯科技有限公司
申请人地址:100085 北京市海淀区上地十街10号百度大厦2层
发明人: 北京百度网讯科技有限公司

专利详细信息

项目	内容
专利名称	训练数据处理方法、训练方法、装置、设备和介质
专利类型	发明申请
申请号	CN202311435529.1
申请日	2023/10/31
公告号	CN117436505A
公开日	2024/1/23
IPC主分类号	G06N3/092
权利人	北京百度网讯科技有限公司
发明人	杨霖; 田孟; 冯欣伟; 冯知凡; 崔骁鹏; 李斐斐; 吴学谦; 孙雨
地址	北京市海淀区上地十街10号百度大厦二层

专利主权项内容

1.一种训练数据处理方法，包括：从原始文本数据中获取多个指令数据集；基于至少两种聚类算法，分别从所述指令数据集中获取聚类种子，得到聚类种子集；根据所述聚类种子集，对所述指令数据集中的指令数据进行聚类，得到多个指令数据簇；从所述多个指令数据簇中分别选取目标指令数据，其中，所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。

训练数据处理方法、训练方法、装置、设备和介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

训练数据处理方法、训练方法、装置、设备和介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢