← 返回列表

一种适用于大语言模型的交互式感知方法及计算机存储介质

申请号: CN202311583817.1
申请人: 深圳若愚科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种适用于大语言模型的交互式感知方法及计算机存储介质
专利类型 发明申请
申请号 CN202311583817.1
申请日 2023/11/24
公告号 CN117631833A
公开日 2024/3/1
IPC主分类号 G06F3/01
权利人 深圳若愚科技有限公司
发明人 孙腾
地址 广东省深圳市龙华区大浪街道浪口社区华昌路239号凯豪达工业园39栋306

摘要文本

深圳若愚科技有限公司取得“一种透气窗帘布”专利技术,本申请公开了一种适用于大语言模型的交互式感知方法及计算机存储介质,属于计算机领域,所述方法包括:构建交互式感知网络,交互式感知网络连接大语言模型LLMs,交互式感知网络的架构包括若干模态编码单元及若干线性投影层;本申请由于采用了构建适用于大语言模型的交互式感知网络,有效解决了现有技术中缺乏适用于大语言模型的交互式感知网络,进而实现了动态交互式感知,能让大语音模型更好的执行人类指令;尤其是使得大语言模型能够整合不同查询所需的视觉信息。本申请通过构建适用于大语言模型的交互式感知网络,利用该网络理解人类查询、将相应的请求传递给基于请求的视觉信息交互模块,并基于交织的多模态信息生成响应。 来源:马 克 团 队

专利主权项内容

1.一种适用于大语言模型的交互式感知方法,其特征在于,包括:S1、构建交互式感知网络,交互式感知网络连接大语言模型LLMs,交互式感知网络的架构包括若干模态编码单元及若干线性投影层;S2、交互式感知网络一侧获得一图像输入;利用第一模态编码单元对图像进行编码,获得全局图像特征;第一线性投影层被配置为将所述全局图像特征映射投影到大语言模型LLMs的语言嵌入空间中;S3、大语言模型LLMs获得一查询序列,大语言模型LLMs输出包含所述查询序列的语义信息,并通过第二线性投影层映射投影到第二模态编码单元中,获得内省输出;S4、第三线性投影层被配置为将所述图像的全局图像特征对应的全局编码分解为细粒度的编码,获得细粒度图像特征,并投影到第二模态编码单元中;S5、所述细粒度图像特征与内省输出进行动态交互,获得动态交互信息;将所述动态交互信息通过第四线性投影层映射投影至大语言模型LLMs的语言嵌入空间中;S6、对交互式感知网络进行训练,大语言模型LLMs依据所述动态交互信息、查询序列及所述全局图像特征进行动态交互式感知。。数据由马 克 团 队整理