用于RPA网页内容提取与处理的方法及系统

申请号: CN202311680503.3

申请人: 杭州实在智能科技有限公司

申请日期: 2023/12/8

摘要文本

本发明属于网络信息技术领域，具体涉及用于RPA网页内容提取与处理的方法及系统。方法包括：S1，通过前台配置及预览模块的流程配置界面，配置出数据提取规则和执行流程；S2，通过软件工具Node.js的Puppeteer自动化库，运行步骤S1配置出的执行流程，获得DOM对象或标签数据；S3，针对步骤S2提供的DOM对象或标签数据，根据步骤S1配置出的数据提取规则，解析并提取出用户需要得到的数据并进行数据清洗；S4，通过前台配置及预览模块的提取结果预览界面，将步骤S3提取清洗后的数据结果进行展示。本发明具有能够实现多场景内容的准确提取，动态及高效数据清洗和处理以及轻量级并可跨平台的特点。

申请人信息

申请人:杭州实在智能科技有限公司
申请人地址:310000 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层
发明人: 杭州实在智能科技有限公司

专利详细信息

项目	内容
专利名称	用于RPA网页内容提取与处理的方法及系统
专利类型	发明授权
申请号	CN202311680503.3
申请日	2023/12/8
公告号	CN117370635B
公开日	2024/3/15
IPC主分类号	G06F16/951
权利人	杭州实在智能科技有限公司
发明人	翟帅
地址	浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层

专利主权项内容

1.用于RPA网页内容提取与处理的方法，其特征在于，包括如下步骤；S1，通过前台配置及预览模块的流程配置界面，配置出数据提取规则和执行流程；S2，通过软件工具Node.js的Puppeteer自动化库，运行步骤S1配置出的执行流程，获得DOM对象或标签数据；S3，针对步骤S2提供的DOM对象或标签数据，根据步骤S1配置出的数据提取规则，解析并提取出用户需要得到的数据并进行数据清洗；S4，通过前台配置及预览模块的提取结果预览界面，将步骤S3提取清洗后的数据结果进行展示；步骤S1中，所述数据提取规则的配置过程包括如下步骤：S11，创建一个Table数据结构，并对所述Table数据结构进行自定义命名；S12，选择所述Table数据结构对应的页面内的容器标签，并再选择所述Table数据结构对应承载的类型内容；所述类型内容为table表格类型内容或list列表类型内容；S13，若步骤S12中，所述Table数据结构对应承载的是table表格类型内容，则直接进行创建；S14，若步骤S12中，所述Table数据结构对应承载的是list列表类型内容，则需要为所述Table数据结构自定义配置一个或多个th表头；每个th表头均配置各自对应的提取规则。。来自：马克团队

用于RPA网页内容提取与处理的方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

用于RPA网页内容提取与处理的方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种耐磨损塑料模具钢及其制备方法

基于数字化控制的纺织印染废水的节能处理工艺

基于数字化控制的涤纶布料的节水印染系统

一种智能球头、应用方法及车辆

一种碳纤维氧化炉送风与回风分配装置

一种建筑整体保温性能检测主体及其检测方法

热门技术领域

快速入口

专利技术资料