← 返回列表

一种基于强化学习的Web信息抽取方法及系统

申请号: CN202311412969.5
申请人: 北京数立得科技有限公司
申请日期: 2023/10/27

摘要文本

本申请涉及互联网技术领域,公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括:获取目标网页的HTML文件,并转换为DOM树;从DOM树中有文本的节点中提取样本特征;构建基于语义特征、结构特征及样式特征的信息抽取模型,将信息抽取模型视为智能体,使用样本特征对智能体进行有监督训练;构建环境模型,使用无标记的样本及环境模型对有监督训练完成的信息抽取模型进行强化训练,将智能体对无标记的样本进行抽取的结果作为与环境模型交互的行为,通过环境模型对行为作出反馈;使用强化训练完成的信息抽取模型抽取Web信息。采用本方法能够提升信息抽取模型的泛化性,在同领域及跨领域网站达到较好的抽取效果。

专利详细信息

项目 内容
专利名称 一种基于强化学习的Web信息抽取方法及系统
专利类型 发明申请
申请号 CN202311412969.5
申请日 2023/10/27
公告号 CN117407615A
公开日 2024/1/16
IPC主分类号 G06F16/957
权利人 北京数立得科技有限公司
发明人 张舒汇; 钟云柯; 梅泳涵; 刘旋
地址 北京市海淀区西直门北大街32号院1号楼9层1011

专利主权项内容

1.一种基于强化学习的Web信息抽取方法,其特征在于,包括:获取目标网页的HTML文件,并转换为DOM树;从所述DOM树中提取出有文本的节点,并从所述有文本的节点中提取样本特征;所述样本特征包括语义特征、结构特征及样式特征;构建基于语义特征、结构特征及样式特征的信息抽取模型,将所述信息抽取模型视为智能体,使用样本特征对所述智能体进行有监督训练;构建环境模型,使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练,将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为,通过所述环境模型基于TPFB的方法对所述行为作出反馈;所述环境模型包括多个第三方数据源;使用强化训练完成的信息抽取模型抽取Web信息。