← 返回列表

基于大模型的多媒体资源的生成方法、装置及存储介质

申请号: CN202410200353.X
申请人: 青岛海尔科技有限公司; 青岛海尔智能家电科技有限公司; 海尔优家智能科技(北京)有限公司
更新日期: 2026-03-16

专利详细信息

项目 内容
专利名称 基于大模型的多媒体资源的生成方法、装置及存储介质
专利类型 发明申请
申请号 CN202410200353.X
申请日 2024/2/23
公告号 CN117789680A
公开日 2024/3/29
IPC主分类号 G10H1/00
权利人 青岛海尔科技有限公司; 青岛海尔智能家电科技有限公司; 海尔优家智能科技(北京)有限公司
发明人 邓邱伟; 田云龙; 郭义合; 尹飞; 王睿; 牛丽
地址 山东省青岛市崂山区海尔路1号海尔工业园; 山东省青岛市崂山区海尔工业园内; 北京市海淀区知春路106号太平洋国际大厦6层601-606室

摘要文本

本申请公开了一种基于大模型的多媒体资源的生成方法、装置及存储介质,涉及语音处理技术领域,该方法包括:对目标对象的输入数据进行解析,得到至少包括文本提示信息和多媒体提示信息的提示信息;将基于文本提示信息生成的文本提示模板输入至大模型,得到大模型输出的多媒体描述信息,对多媒体提示信息进行编码,得到多媒体提示信息的编码信号,将编码信号量化为多媒体特征向量;将多媒体描述信息对应的信息特征向量和多媒体特征向量发送至特征融合模型,得到特征融合模型输出的融合向量;对融合向量进行解码,以生成融合向量对应的多媒体资源,解决了如何使用大模型生成更符合用户需求的多媒体资源的技术问题,生成更符合用户需求的多媒体资源。

专利主权项内容

1.一种基于大模型的多媒体资源的生成方法,其特征在于,包括:对目标对象的输入数据进行解析,得到不同类型的提示信息,其中,所述不同类型的提示信息至少包括文本提示信息和多媒体提示信息;将基于所述文本提示信息生成的文本提示模板输入至所述大模型,得到所述大模型输出的多媒体描述信息,以及对所述多媒体提示信息进行编码,得到所述多媒体提示信息的编码信号,根据矢量量化操作将所述编码信号量化为多媒体特征向量;将所述多媒体描述信息对应的信息特征向量和所述多媒体特征向量发送至特征融合模型,得到所述特征融合模型输出的融合向量;根据所述矢量量化操作对所述融合向量进行解码,以生成所述融合向量对应的多媒体资源。