← 返回列表

用于RPA网页内容提取与处理的方法及系统

申请号: CN202311680503.3
申请人: 杭州实在智能科技有限公司
申请日期: 2023/12/8

摘要文本

本发明属于网络信息技术领域,具体涉及用于RPA网页内容提取与处理的方法及系统。方法包括:S1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;S2,通过软件工具Node.js的Puppeteer自动化库,运行步骤S1配置出的执行流程,获得DOM对象或标签数据;S3,针对步骤S2提供的DOM对象或标签数据,根据步骤S1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;S4,通过前台配置及预览模块的提取结果预览界面,将步骤S3提取清洗后的数据结果进行展示。本发明具有能够实现多场景内容的准确提取,动态及高效数据清洗和处理以及轻量级并可跨平台的特点。

专利详细信息

项目 内容
专利名称 用于RPA网页内容提取与处理的方法及系统
专利类型 发明授权
申请号 CN202311680503.3
申请日 2023/12/8
公告号 CN117370635B
公开日 2024/3/15
IPC主分类号 G06F16/951
权利人 杭州实在智能科技有限公司
发明人 翟帅
地址 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层

专利主权项内容

1.用于RPA网页内容提取与处理的方法,其特征在于,包括如下步骤;S1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;S2,通过软件工具Node.js的Puppeteer自动化库,运行步骤S1配置出的执行流程,获得DOM对象或标签数据;S3,针对步骤S2提供的DOM对象或标签数据,根据步骤S1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;S4,通过前台配置及预览模块的提取结果预览界面,将步骤S3提取清洗后的数据结果进行展示;步骤S1中,所述数据提取规则的配置过程包括如下步骤:S11,创建一个Table数据结构,并对所述Table数据结构进行自定义命名;S12,选择所述Table数据结构对应的页面内的容器标签,并再选择所述Table数据结构对应承载的类型内容;所述类型内容为table表格类型内容或list列表类型内容;S13,若步骤S12中,所述Table数据结构对应承载的是table表格类型内容,则直接进行创建;S14,若步骤S12中,所述Table数据结构对应承载的是list列表类型内容,则需要为所述Table数据结构自定义配置一个或多个th表头;每个th表头均配置各自对应的提取规则。。来自:马 克 团 队