一种基于用户画像的AI数字人建模方法及系统
摘要文本
本发明公开了一种基于用户画像的AI数字人建模方法及系统。该系统包括:检测并采集目标对象的传感信息和不同传感信息的置信度;将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型,其中所述传感信息至少包括视图信息、语音信息以及生物特征信息;数据融合模型输出所述目标对象的情绪信息,根据所述情绪信息建立AI数字人模型。本发明构建了一种基于用户画像的AI数字人建模方法及系统,可快速有效的建立最佳的AI数字人模型,减少了数据处理量,提高交互体验。
申请人信息
- 申请人:浙江宇宙奇点科技有限公司
- 申请人地址:310000 浙江省杭州市余杭区仓前街道文一西路1288号3号楼4楼410室(杭州未来商务秘书企业托管2023031号)
- 发明人: 浙江宇宙奇点科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于用户画像的AI数字人建模方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311673160.8 |
| 申请日 | 2023/12/7 |
| 公告号 | CN117371338B |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06F30/27 |
| 权利人 | 浙江宇宙奇点科技有限公司 |
| 发明人 | 张小飞; 周小明 |
| 地址 | 浙江省杭州市余杭区仓前街道文一西路1288号3号楼4楼410室(杭州未来商务秘书企业托管2023031号) |
专利主权项内容
1.一种基于用户画像的AI数字人建模方法,其特征在于,包括:检测并采集目标对象的传感信息和不同传感信息的置信度;将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型,其中所述传感信息至少包括视图信息、语音信息以及生物特征信息;若所述传感信息与现有的图像数据库中的图像信息的置信度小于70%,则不需要将所述传感信息进行下一步的处理;数据融合模型输出所述目标对象的情绪信息,根据所述情绪信息建立AI数字人模型;其中,所述将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型,具体包括:利用卷积神经网络和预先训练好的面部表情模型,分别从语音信号、视觉信号以及生物信息信号中提取相应的声音特征、视觉特征以及生物信息特征;将提取的声音特征、视觉特征以及生物信息特征进行信息融合和压缩获得多模态特征;利用长短期记忆循环神经网络对融合后的多模态特征进行情感识别;所述传感信息输入自编码神经网络进行的信息压缩过程用下式表示:其中,分别为自编码神经网络的输入层变量和隐藏层变量;/>为第n层网络的第i个输入变量,/>为第h个输出变量,p为输入变量对应的传感信息类型,W和b为自编码神经网络中的权重矩阵和偏离率;其中,i、h、p为自然数i∈N, h∈N, p∈N;其中,自编码神经网络不同的隐藏层之间相连接;nnnnnn所述数据融合模型的融合过程包括:赋予可信度高的传感信息更高的权重, 可信度较低的模态则赋予低权重;计算当前权重分布下的传感信息融合得到的预测唤醒分数;假设试验t的预测唤醒分数为则计算公式表示为:其中,假设有m个传感信息对应m个回归模型,共T次试验用于预测,第k个模型中试验t的预测平均唤醒评分为A∈(1, 2, 3, …, m}, t∈{1, 2, 3, …, T),tk设权重集ω为(0.00, 0.01, 0.02, …, 0.98, 0.99, 1.00],即一个从0.00开始到1.00结束,步为0.01的数组;k计算当前权重分布下的传感信息融合得到的预测唤醒分数;假设试验t的预测唤醒分数为之后还包括:计算当前权重分布下T次试验的RMSE, 记为RS, 计算公式为:cut其中y为试验t的真实唤醒分数,通过比较RS和RS的大小关系来判断当前权重分布是否拥有更好的性能, 当RS<RS时, 认为当前权重分布有更好的性能, 所以将RS更新为RS, 保存当前权重分布;tcutmincutminmincut当RS≥RS时, 认为当前的权重分布没有表现出更好的性能, 不需要对RS进行更新;cutminmin所述数据融合模型输出所述目标对象的情绪信息,根据所述情绪信息建立AI数字人模型,具体包括:根据所述情绪信息确定所述目标对象在与不同社会关系人员互动时的情绪模式;根据所述情绪模式确定所述目标对象互动最优的社会关系人员,根据最优的社会关系人员的行为数据建立AI数字人模型,具体包括:从行为数据进行筛选提取行为关键特征,使用关键特征生成模拟对象数据;其中,所述行为数据包括肢体动作,所述行为关键特征包括肢体关键点或肢体动作单元,所述关键特征通过统计学习或机器学习生成;或者,所述行为数据包括表情,所述行为关键特征点包括面部局部关键点或面部动作单元,所述关键特征通过事先规范或机器学习生成;或者,所述行为数据包括语气,所述行为关键特征点包括陪伴对象语音输入中的声学信号特征,所述关键特征通过事先规范或机器学习生成。。关注微信公众号马克数据网