一种基于强化学习的Web信息抽取方法及系统

申请号: CN202311412969.5

申请人: 北京数立得科技有限公司

申请日期: 2023/10/27

摘要文本

本申请涉及互联网技术领域，公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括：获取目标网页的HTML文件，并转换为DOM树；从DOM树中有文本的节点中提取样本特征；构建基于语义特征、结构特征及样式特征的信息抽取模型，将信息抽取模型视为智能体，使用样本特征对智能体进行有监督训练；构建环境模型，使用无标记的样本及环境模型对有监督训练完成的信息抽取模型进行强化训练，将智能体对无标记的样本进行抽取的结果作为与环境模型交互的行为，通过环境模型对行为作出反馈；使用强化训练完成的信息抽取模型抽取Web信息。采用本方法能够提升信息抽取模型的泛化性，在同领域及跨领域网站达到较好的抽取效果。

申请人信息

申请人:北京数立得科技有限公司
申请人地址:100082 北京市海淀区西直门北大街32号院1号楼9层1011
发明人: 北京数立得科技有限公司

专利详细信息

项目	内容
专利名称	一种基于强化学习的Web信息抽取方法及系统
专利类型	发明申请
申请号	CN202311412969.5
申请日	2023/10/27
公告号	CN117407615A
公开日	2024/1/16
IPC主分类号	G06F16/957
权利人	北京数立得科技有限公司
发明人	张舒汇; 钟云柯; 梅泳涵; 刘旋
地址	北京市海淀区西直门北大街32号院1号楼9层1011

专利主权项内容

1.一种基于强化学习的Web信息抽取方法，其特征在于，包括：获取目标网页的HTML文件，并转换为DOM树；从所述DOM树中提取出有文本的节点，并从所述有文本的节点中提取样本特征；所述样本特征包括语义特征、结构特征及样式特征；构建基于语义特征、结构特征及样式特征的信息抽取模型，将所述信息抽取模型视为智能体，使用样本特征对所述智能体进行有监督训练；构建环境模型，使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练，将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为，通过所述环境模型基于TPFB的方法对所述行为作出反馈；所述环境模型包括多个第三方数据源；使用强化训练完成的信息抽取模型抽取Web信息。

一种基于强化学习的Web信息抽取方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种基于强化学习的Web信息抽取方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢