← 返回列表

一种指定领域的文本生成方法及装置

申请号: CN202410236990.2
申请人: 之江实验室
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种指定领域的文本生成方法及装置
专利类型 发明申请
申请号 CN202410236990.2
申请日 2024/3/1
公告号 CN117807963A
公开日 2024/4/2
IPC主分类号 G06F40/166
权利人 之江实验室
发明人 李亚玲; 董波; 牛大明; 何晓琴; 高金莎; 王云云
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

摘要文本

本说明书公开了一种指定领域的文本生成方法及装置,对获取到的指定领域的原始文件进行数据清洗和格式转化得到目标文件,通过主题分类模型确定目标文件的目标主题,根据目标文件中的文本构建目标主题的问答对,问答对中的问题是目标文件中的标题文本,答案则是目标文件中的正文文本,根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型,从而通过目标主题对应的文本生成模型,生成目标主题的输出文本。可见,通过上述方式,将提取到的领域知识融合入预训练的自然语言模型,提升了模型对指定领域的适用性,从而提高了输出文本的质量。

专利主权项内容

1.一种指定领域的文本生成方法,其特征在于,包括:获取指定领域的原始文件;所述指定领域包括公文写作领域;根据数据清洗规则对所述指定领域的原始文件进行数据清洗,并对数据清洗后的各原始文件进行格式转化,得到目标文件;将所述目标文件输入到预先训练的主题分类模型中,得到所述主题分类模型输出的所述目标文件对应的目标主题;根据所述目标文件中的文本,构建所述目标主题对应的问答对;其中,所述问答对中的问题是从所述目标文件中提取出的标题文本,所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本;根据所述目标主题对应的问答对,优化预训练的自然语言模型的模型参数,得到所述目标主题对应的文本生成模型;通过所述目标主题对应的文本生成模型,生成所述目标主题的输出文本。