用于RPA网页内容提取与处理的方法及系统
摘要文本
本发明属于网络信息技术领域,具体涉及用于RPA网页内容提取与处理的方法及系统。方法包括:S1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;S2,通过软件工具Node.js的Puppeteer自动化库,运行步骤S1配置出的执行流程,获得DOM对象或标签数据;S3,针对步骤S2提供的DOM对象或标签数据,根据步骤S1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;S4,通过前台配置及预览模块的提取结果预览界面,将步骤S3提取清洗后的数据结果进行展示。本发明具有能够实现多场景内容的准确提取,动态及高效数据清洗和处理以及轻量级并可跨平台的特点。
申请人信息
- 申请人:杭州实在智能科技有限公司
- 申请人地址:310000 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层
- 发明人: 杭州实在智能科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 用于RPA网页内容提取与处理的方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311680503.3 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117370635B |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 杭州实在智能科技有限公司 |
| 发明人 | 翟帅 |
| 地址 | 浙江省杭州市余杭区余杭街道文一西路1818-2号6幢6层 |
专利主权项内容
1.用于RPA网页内容提取与处理的方法,其特征在于,包括如下步骤;S1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;S2,通过软件工具Node.js的Puppeteer自动化库,运行步骤S1配置出的执行流程,获得DOM对象或标签数据;S3,针对步骤S2提供的DOM对象或标签数据,根据步骤S1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;S4,通过前台配置及预览模块的提取结果预览界面,将步骤S3提取清洗后的数据结果进行展示;步骤S1中,所述数据提取规则的配置过程包括如下步骤:S11,创建一个Table数据结构,并对所述Table数据结构进行自定义命名;S12,选择所述Table数据结构对应的页面内的容器标签,并再选择所述Table数据结构对应承载的类型内容;所述类型内容为table表格类型内容或list列表类型内容;S13,若步骤S12中,所述Table数据结构对应承载的是table表格类型内容,则直接进行创建;S14,若步骤S12中,所述Table数据结构对应承载的是list列表类型内容,则需要为所述Table数据结构自定义配置一个或多个th表头;每个th表头均配置各自对应的提取规则。。来自:马 克 团 队