一种AI视频处理方法与装置
申请人信息
- 申请人:之江实验室科技控股有限公司
- 申请人地址:310000 浙江省杭州市余杭区余杭街道文一西路1818-2号10号楼320室
- 发明人: 之江实验室科技控股有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种AI视频处理方法与装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410017040.0 |
| 申请日 | 2024/1/5 |
| 公告号 | CN117523050A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06T13/40 |
| 权利人 | 之江实验室科技控股有限公司 |
| 发明人 | 刘松国; 范诗扬 |
| 地址 | 浙江省杭州市余杭区余杭街道文一西路1818-2号10号楼320室 |
摘要文本
本申请涉及视频处理技术领域,其具体地公开了一种AI视频处理方法与装置,其采用计算机视觉技术,对多张漫画图像进行图像语义特征提取,同时,采用自然语言处理技术,对漫画中的对话和文本描述进行文本识别,提取漫画人物的语言特征,并将两种特征进行融合,基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频,再将音频数据和视频视频结合起来以得到生成的动漫视频。这样,结合计算机视觉和自然语言处理的技术,能够更好地理解漫画人物的语言特征和漫画图像的情感表达,以生成高质量的视频。
专利主权项内容
1.一种AI视频处理方法,其特征在于,包括:获取多张漫画图像;从所述多张漫画图像中提取出动漫声音动作情感关联特征向量;基于所述动漫声音动作情感关联特征向量,生成动漫视频;其中,从所述多张漫画图像中提取出动漫声音动作情感关联特征向量,包括:对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量;对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量;融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量;其中,融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量,包括:基于所述漫画全局上下文语义特征向量,对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量;融合所述漫画全局上下文语义特征向量和所述优化漫画文本语义特征向量以得到所述动漫声音动作情感关联特征向量;其中,基于所述漫画全局上下文语义特征向量,对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量,包括:以如下优化公式对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到所述优化漫画文本语义特征向量;其中,所述优化公式为:
其中,/>表示所述漫画全局上下文语义特征向量,/>表示所述漫画全局上下文语义特征向量的第/>个位置的特征值,/>表示所述漫画文本语义特征向量的第/>个位置的特征值,/>表示以2为底的对数函数值,/>表示预定超参数,/>表示所述优化漫画文本语义特征向量的第/>个位置的特征值。