一种智能化图片配文方法及系统
申请人信息
- 申请人:彩讯科技股份有限公司
- 申请人地址:518063 广东省深圳市南山区粤海街道高新区社区科苑南路3176号彩讯科技大厦三十一层
- 发明人: 彩讯科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种智能化图片配文方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410197616.6 |
| 申请日 | 2024/2/22 |
| 公告号 | CN117763190A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/583 |
| 权利人 | 彩讯科技股份有限公司 |
| 发明人 | 杨良志; 白琳; 汪志新; 李海涛; 张润璞; 李自然; 周学友 |
| 地址 | 广东省深圳市南山区粤海街道高新区社区科苑南路3176号彩讯科技大厦三十一层 |
摘要文本
本申请的实施例提供了一种智能化图片配文方法和系统。所述方法包括通过接收用户端发送的图片配文请求,图片配文请求携带待配文的目标图片;通过预设的正面标签词组模型生成目标图片的目标正面标签词组;基于目标正面标签词组生成目标图片的多个匹配文本;根据多个匹配文本确定最终智能化图片配文结果;向用户端发送图片配文请求响应,所述图片配文请求响应携带所述最终智能化图片配文结果。正面标签词组模型通过采用双向自注意力掩码策略、单模态自注意力掩码策略和因果自注意力掩码策略,联合训练图文匹配、图文对比和图文生成任务,每一次输入图像生成的正面标签词组都具有一定的差异化,有利于增加图片配文内容的丰富性和多样性。 关注公众号专利查询网
专利主权项内容
1.一种智能化图片配文方法,其特征在于,包括:接收用户端发送的图片配文请求,图片配文请求携带待配文的目标图片;通过预设的正面标签词组模型生成所述目标图片的目标正面标签词组;所述正面标签词组模型包含图像transformer子模型和文本transformer子模型;所述图像transformer子模型和文本transformer子模型共享自注意力层,分别采用双向自注意力掩码策略、单模态自注意力掩码策略和因果自注意力掩码策略;利用所述图像transformer子模型和文本transformer子模型,联合训练所述正面标签词组模型的图文匹配任务、图文对比任务和图文生成任务;所述正面标签词组模型输出训练样本图片的图文匹配特征矩阵;所述图文匹配特征矩阵包含训练样本图片的图像特征和文本词嵌入;根据所述图文匹配特征矩阵,利用全连接网络和大语言模型生成所述训练样本图片的正面标签词组;基于所述目标正面标签词组生成所述目标图片的多个匹配文本;根据所述多个匹配文本确定最终智能化图片配文结果;向所述用户端发送图片配文请求响应,所述图片配文请求响应携带所述最终智能化图片配文结果。